Как правильно составить robots.txt для сайта на wordpress

Автор:
(Людмила Лунева)

Веб-дизайнер и разработчик сайтов на wordpress

Начало статьи читайте здесь »
Файл robots.txt - это служебный файл, в котором можно указать роботам ПС (поисковых систем), какие разделы сайта индексировать, а какие нет. Сделать это можно с помощью специальных директив. Директивы можно написать для всех роботов одновременно или отдельно для робота каждой ПС.
Разделы, закрытые от индексации, не попадут в индекс поисковых систем.
Правильный robots.txt для сайта на wordpress
Что такое Индекс?
Это база данных поисковой системы, в которой она хранит набор встречающихся на интернет-страницах слов и словосочетаний. Эта информация соотнесена с адресами тех веб-страниц, на которых она встречаются, и постоянно пополняется новой информацией, собираемой роботом-пауком поисковой системы.
Для того, чтобы сайт появлялся в выдаче поисковой системы по определенным запросам, он должен быть занесен в индекс этой поисковой системы.
Вообщем, robots.txt – это очень полезный и нужный любому сайту файл.

Общая для всех сайтов часть файла:

Итак, создаем текстовый документ с названием robots.txt и пишем в него следующее:

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-
Disallow: /*trackback
Disallow: /feed
Disallow: /?s=
Disallow: /xmlrpc.php
Allow: /wp-content/uploads/
Host: www.yourdomain.ru
Sitemap: http://yourdomain.ru/sitemap.xml
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: YandexImages
Allow: /wp-content/uploads/
User-agent: ia_archiver
Disallow: /

Пояснения:

  • User-agent: * - Директива всем роботам

    Если нужно, чтобы эти правила работали только для одного, конкретного робота, то вместо * указываем его имя (User-agent: Yandex, User-agent: Googlebot и т.д.).

  • Disallow: /cgi-bin/

    Здесь мы запрещаем индексировать папку со скриптами.

  • Disallow: /wp- - Запрещает индексацию всех папок и файлов движка, начинающихся с wp- (т.е. папок /wp-admin/, /wp-includes/, /wp-content/ и всех файлов, расположенных в корневой папке).
  • Disallow: /*trackback
    Disallow: /*comment-
    Disallow: /feed

    Запрещаем индексацию комментариев, трекбеков и фида.
    Спецсимвол * означает любую (в том числе пустую) последовательность символов, т.е. все, что находится в адресе до указанной части или после нее.

  • Disallow: /?s= - Запрещаем индексацию результатов поиска.
  • Allow: /wp-content/uploads/ - Разрешение индексировать папку uploads (а значит и расположенные в ней картинки).

    Правило Яндекса для robots.txt гласит:

    "Директивы Allow и Disallow из соответствующего User-agent блока сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для данной страницы сайта подходит несколько директив, то выбирается последняя в порядке появления в сортированном списке."
    Получается, что директиву Аllow можно указать в любом месте.
    Яндекс самостоятельно сортирует список директив и располагает их по длине префикса.
    Google понимает Allow и вверху и внизу секции.
    Касательно директивы Allow: /wp-content/uploads/ - поскольку, далее мы разрешаем индексировать роботам-индексаторам картинок папку с картинками, я не уверена, что эта директива нужна.
    Но, наверное, лишней не будет. Так что, это - на ваше усмотрение.

  • Host: www.glavnoye-zerkalo.ru - Директива Host понимается только Яндексом и не понимается Гуглом.

    В ней указывается главное зеркало сайта, в случае, если у вашего сайта есть зеркала. В поиске будет участвовать только главное зеркало.

    Директиву Host лучше написать сразу после директив Disallow (для тех роботов, которые не полностью следуют стандарту при обработке robots.txt).
    Для Яндекса директива Host являются межсекционной, поэтому будет найдена роботом не зависимо от того, где она указана в файле robots.txt.
    Важно: Директива Host в файле robots.txt может быть только одна.
    В случае указания нескольких директив, использоваться будет первая.

  • Sitemap: http://mysite.ru/sitemaps.xml - Указываем путь к файлу sitemaps.xml

    Для Яндекса и Google Sitemap - это межсекционная директива, но лучше написать ее в конце через пустую строку. Так она будет работать для всех роботов сразу.

  • User-agent: Googlebot-Image
    Allow: /wp-content/uploads/
    User-agent: YandexImages
    Allow: /wp-content/uploads/

    Разрешает роботам Googlebot и YandexImages индексировать наши картинки.

  • User-agent: ia_archiver
    Disallow: /

    Полностью запрещаем роботу веб архива индексацию нашего сайта.
    Это предупредительная мера, которая защитит сайт от массового парсинга контента через веб архив.

Итак, мы рассмотрели стандартную часть файла robots.txt, которая подойдет для любого сайта на wordpress.
Но, нам нужно спрятать от роботов-индексаторов еще некоторые разделы сайта, в частности, те, которые создают дублированный контент - разного рода архивы.

Индивидуальные настройки:

  • Если на вашем сайте есть система древовидных комментариев, как на моем блоге, тогда нужно запретить индексацию таких адресов:

    *?replytocom=

    Их создает кнопка (ссылка) "Ответить на комментарий".

  • Страницы архивов на разных сайтах имеют различные адреса, в зависимости от того, как формируются URL на сайте, включены ли ЧПУ или нет.
    Как определить адреса архивов вашего сайта?

    Для этого нужно открыть архив любого месяца и посмотреть, как выглядит адрес страницы архива.

    Он может выглядеть, например, так: http://sait.ru/archives/date/post-1.

    В этом случае, выделяем общую для всех архивов по дате часть адреса:
    /archives/date/.
    Соответственно, в файле robots.txt указываем:
    Disallow: /archives/date/*
    Будьте внимательны - у вас архивы могут иметь другие адреса.
    Например, архив года может иметь такой адрес: http://sait.ru/2012
    Тогда закрывать нужно эту часть - /2012/
    Напоминаю, что спецсимвол * означает любую последовательность символов, т.е. все, что находится в адресе далее.

  • Точно так же определяем адреса архивов тегов и архивов автора.
    И закрываем их в robots.txt.

    Disallow: /archives/tag/
    Disallow: /archives/author/

    Рекомендую архивы тегов закрыть примерно на полгода-год, (если у вас молодой сайт) пока он стабильно пропишется в поисковой выдаче.
    После этого срока архивы тегов стоит открыть для индексации, так как по наблюдениям, на страницы тегов по поисковым запросам приходит значительно больше посетителей, чем на страницы постов, к которым эти теги созданы.
    Но, не добавляйте к постам много тегов, иначе вашему сайту будут грозить санкции за дублированный контент.
    Один-два (редко три) тега к одному посту вполне достаточно.

  • Можно, также, закрыть индексацию всех главных страниц, кроме первой.

    Обычно, их адреса выглядят так: http://sait.ru/page/2, http://sait.ru/page/3 и т. д., но лучше проверить.
    Перейдите по ссылкам навигации внизу Главной страницы на вторую страницу и посмотрите, как выглядит ее адрес в адресной строке.
    Закрываем эти страницы:
    Disallow: /page/*

  • Иногда, на сайте требуется закрыть от индексации еще какие то страницы или папки. В этом случае, действуете аналогично - открываете в браузере нужную вам страницу и смотрите ее адрес. А дальше закрываете его в robots.txt.

    Учтите, что если вы закрываете, например, папку "book", то автоматически закроются и все файлы, расположенные в этой папке.

    Если закрыть страницу, в URL'е которой есть, например, "news" так: */news/,
    то закроются и страницы /news/post-1 и /category/news/.

robots.txt полностью ↓

Открыть ↓
Для разблокировки содержимого, введите код из последнего, присланного вам письма.

Справка:

Подробности составления robots.txt можно изучить на странице помощи Яндекса - http://help.yandex.ru/webmaster/?id=996567
Проверить правильность составления файла можно в webmaster.yandex - Настройка индексирования - Анализ robots.txt
В Google robots.txt можно проверить по этой ссылке:
https://www.google.com/webmasters/tools/crawl-access?hl=ru&siteUrl=http://site.ru/
Проверяемый сайт должен быть добавлен в панель веб-мастера.
P.S. Для Яндекса и Google правила составления robots.txt немного различаются.
Толкование правил составления robots.txt можно прочитать здесь - http://robotstxt.org.ru
К сожалению, проверить можно только синтаксис.
Правильно ли вы закрыли от индексации разделы сайта, покажет только время :).
Ну вот и все - файл robots.txt готов, осталось только загрузить его в корневой каталог нашего сайта.
Напоминаю, что корневой каталог это папка в которой находится файл config.php.
И последнее - все, сделанные вами изменения в robots.txt, будут заметны на сайте только спустя несколько месяцев.

В тему:

Однажды видела сайт на wordpress, на котором не было файла robots.txt.
Этот сайт некоторое время простоял пустым - т.е. с одной стандартной записью, которая по умолчанию присутствует в wordpress.
Представьте себе, какой шок испытал владелец сайта, когда обнаружил, что Яндекс проиндексировал 2 страницы с контентом и больше тысячи страниц самого движка 🙂
На этой веселой ноте заканчиваю.

Внутренняя оптимизация сайта:

1. Оптимизация кода шаблона.

2. Оптимизация контента.

3. Перелинковка.

4. Файл robots.txt.

5. Файл sitemap.xml.

6. Пинг.

  1. 5
  2. 4
  3. 3
  4. 2
  5. 1

(9 голосов, в среднем: 3.4 из 5)

Комментарии

  1. Спасибо, ещё раз проверил свой robots.txt.

  2. А почему надо закрывать комменты? Пусть индексируются. Это даст профит по супер нч запросам.

    • Потому что ссылка на страницу отдельного комментария - это суть ссылка на запись, к которой этот комментарий оставлен. Только ссылки на запись и на комментарий к этой записи сильно отличаются.
      А поскольку комментариев к каждой записи может быть очень много, то получается дублированный контент в громадном количестве.

  3. Ксана, спасибо! Первый раз вижу такое подробное разъяснение, как правильно составить robot.tx, надо будет произвести "ревизию" своего файла:)

  4. Ксана, спасибо за robots.txt, сейчас сверяю со своим.
    Запрещаю архивы и page и проверяю через webmaster.yandex.ua/site/robots.xml пишет напротив:
    Disallow:
    /archives/author/ разрешен
    Disallow:
    /archives/date/ разрешен
    Disallow:
    /page/ разрешен
    Значит, архивы и страницы разрешены?

    • Вряд ли.
      Сервис Вебмастер поисковых систем проверяет только синтаксис, т.е. правильное употребление директив.
      А не то, какую страницу вы разрешили, а какую запретили.

      • Спасибо за ответ, пошел корректировать.

  5. Эх. Полез проверять, так нашел ошибку в имени домена. Будьте оч внимательны!
    Нельзя ли как-нить ускорить посткорректировочный процесс?

    • Это вы о чем?

      • Нашел свою ошибку. Не у вас, нет.
        Очень не хочется долго ждать результатов корректировки 🙂

  6. У меня получился вот такой робот.тхт

    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /wp-login.php
    Disallow: /trackback
    Disallow: /feed
    Disallow: */trackback
    Disallow: */feed
    Disallow: /comment-page/*
    Disallow: /xmlrpc.php
    Disallow: /author
    Disallow: /tag
    Disallow: /page
    Disallow: /archives
    Disallow: */comment*
    Disallow: */feed
    Disallow: /iframes
    Disallow: /privacy-policy.html
    Disallow: /web-site-agreement.html
    Disallow: /category/*/*
    Disallow: */trackback*
    Disallow: /*?*
    Disallow: *.php
    Disallow: /*.js
    Disallow: /*.inc
    Disallow: /*.css
    Disallow: /*.gz
    Disallow: /*.wmv
    Disallow: /*.cgi
    Disallow: /*.zip
    Allow: /wp-content/uploads/
    User-agent: Yandex
    Host: ssss.com
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /wp-login.php
    Disallow: /trackback
    Disallow: /feed
    Disallow: */trackback
    Disallow: */feed
    Disallow: /comment-page/*
    Disallow: /xmlrpc.php
    Disallow: /author
    Disallow: /tag
    Disallow: /page
    Disallow: /category/*
    Disallow: /archives
    Disallow: /comments
    Disallow: /*feed
    Disallow: */trackback
    Disallow: */comment*
    Disallow:/iframes
    Disallow: /privacy-policy.html
    Disallow: /web-site-agreement.html
    Disallow: /category/*/*
    Disallow: */trackback*
    Disallow: /*?*
    Disallow: *.php
    Disallow: /*.js
    Disallow: /*.inc
    Disallow: /*.css
    Disallow: /*.gz
    Disallow: /*.wmv
    Disallow: /*.cgi
    Disallow: /*.zip
    Allow: /wp-content/uploads/

    Sitemap: http://ssss.com/sitemap.xml

    • User-agent: *

      Типа, это всех роботов.

      User-agent: Yandex

      А это для особо одаренных, которые с первого раза не понимают :).
      Какой смысл писать одно и то же дважды?

  7. Давно взял ваш файл за основу, несколько доработав - спасибо.

  8. Спасибо, полезная информация, проверила на нескольких блогах своих.
    Подождем пару месяцев 🙂

  9. Спасибо Ксана!
    Добавила некоторые строки в роботс.
    Будем ждать...

  10. А я на своем сайте для исключения дублей запретил к индексации и архивы по годам:
    Disallow: /2011/
    Disallow: /2010/
    Disallow: /2012/
    Правда года ежегодно приходится ручками дописывать

    • Спасибо, что напомнили.
      Действительно, архивы по годам тоже нужно закрыть.

      • Спасибо за отличную статью.
        А я индексацию архивов по годам так закрываю.
        Disallow: /201*
        Чтобы все года столбиком не писать.
        Яндекс понимает (проверял в Яндекс.Вебмастер).

        • Хорошая идея!
          Спасибо, пригодится.

  11. Ксана, здравствуйте! Установила, предложенный Вами вариант файла Robots.txt , а яндекс вебмастер мне выдал ошибку " 32: Google Image: Обнаружена неизвестная директива." Что я не так сделала?

    • Это для Яндекса неизвестная директива, а для робота google очень даже известная :).
      Хотя, это просто пояснение для владельца сайта (не для Яндекса), так что его можно удалить.

  12. Ксана я еще чайник. подскажите пожалуйста что у меня не так в файле роботекст, вроде как надо, но с индексацией Яндекса ужас творится.

    User-agent: *
    Crawl-delay: 4
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    User-agent: Yandex
    Crawl-delay: 4
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Host: http://teotihuacan.ru

    Sitemap: http://teotihuacan.ru/sitemap.xml.gz
    Sitemap: http://teotihuacan.ru/sitemap.xml
    Что же я не так сделал? С уважением Николай.

    • В принципе, грубых ошибок нет, но я бы сократила файл и закрыла бы все архивы.
      Кроме того, вызывает сомнение целесообразность следующих конструкций:
      Disallow: */*/trackback
      Disallow: */*/feed/*/
      Что касается индексации, то ваш сайт по-видимому, под фильтром у Яндекса. Чтобы вывести его из под фильтра, нужно найти причину и устранить.
      Этой причиной может быть дублированный контент (еще одна причина закрыть архивы в robots.txt).
      Рекомендую прочитать этот пост и сделать все, в нем написанное.
      Вот еще одна подсказка - http://solomono.ru/?search=http%3A%2F%2Fteotihuacan.ru. Это анализ вашего сайта.

      • Ксаночка спасибо вам за помощь огромное, но простите мою навязчивость, уже всего боюсь, а вот так правильно?
        User-agent: *
        Crawl-delay: 4
        Disallow: /cgi-bin
        Disallow: /wp-admin
        Disallow: /wp-includes
        Disallow: /wp-content/plugins
        Disallow: /wp-content/cache
        Disallow: /wp-content/themes
        Disallow: /trackback
        Disallow: */trackback
        Disallow: */feed
        Yandex Image:
        User-agent: Yandexbot-Image
        Allow: /*
        Internet Archiver Wayback Machine
        User-agent: ia_archiver
        Disallow: /
        Sitemap: http://teotihuacan.ru/sitemap.xml.gz
        Sitemap: http://teotihuacan.ru/sitemap.xml
        Сократил и убрал
        Disallow: */*/trackback
        Disallow: */*/feed/*/
        Архивы запретил, правильно?
        Смущает Sitemap, почему то его 2 штуки. Еще раз извините, с меня - на кофе! С уважением.

        • Архивы вы не запретили.
          Добавьте в ваш robots.txt следующее:
          Disallow: /2012/
          Disallow: /2013/
          Disallow: /2014/
          Disallow: /page/*
          Disallow: /tag/*
          А это тоже добавьте, только предварительно проверьте, какие адреса у вас имеют архивы месяца и архивы автора:
          Disallow: /archives/date/*
          Disallow: /archive/author/*
          И скорректируйте эти адреса в robots.txt.
          Кроме этого:
          - поставьте в теги noindex все посторонние ссылки (ссылки на другие сайты). В том числе, счетчики, форму smartresponderа и пр.
          - удалите баннерную рекламу с сайта;
          - если продаете ссылки, перестаньте продавать.
          После этого напишите в техподдержку Яндекса письмо такого плана:

          Моего сайта нет в поиске Яндекса.
          Я внимательно прочитал всю документацию Яндекса по индексированию (кстати, если вы этого еще не сделали, то прочитайте обязательно и сделайте все, что там написано).
          И исправил все ошибки на сайте.
          Пожалуйста проверьте мой сайт.
          С уважением, ....

          Напишите из интефейса Яндекс-вебмастера, со страницы вашего сайта.
          И пишите каждые две недели, пока кто нибудь из техподдержки не проверит ваш сайт вручную.
          Т.е. исправить все ошибки и писать Платону - это единственный способ вернуть сайт в выдачу.

          • Ксана, авторизируйте меня по WebMoney, на кофе отправил.
            И чтобы вас не отрывать объяснениями, скажите пожалуйста сколько будет стоить корректировка файла robots.txt.
            Много не понимаю, много сил, времени в сайт вкладываю (usb ужас модем - другой возможности пока нет), не хочу из-за своей ошибки все испортить. С уважением Николай.

          • Да я вам все уже в комментариях рассказала.
            Не нужно ничего платить.

  13. Если добавляете robots.txt на давно существующий сайт - будьте готовы к неожиданностям.
    Падение в выдаче Яндекса и Google на пару месяцев вполне нормально.
    И поиск неправильных строк в robots.txt вполне может оказаться безуспешным, просто иногда так бывает.
    robots.txt должен быть добавлен на сайт как можно скорее, как ни крути, но рано или поздно вопрос добавления все равно встанет, так лучше позаботиться об этом заранее, чтоб потом локти не кусать.

  14. установил WP в отдельный каталог
    адрес сайта: example.com
    адрес wordpress: example.com/ololo
    как правильно прописать robots.txt ?
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    или так:
    Disallow: /ololo/wp-admin
    Disallow: /ololo/wp-includes
    Disallow: /ololo/wp-content/plugins

    • Теоретически, второй вариант более логичен.

  15. Disallow: /wp-*
    Этой конструкцией блокируется анализ корневых файлов?
    Стоит ли заниматься крохоборством и добавлять сюда favicon.ico да пару тройку не подпадающих под правило?

    • Это можете решить только вы сами.

  16. Здравствуйте, а почему при открывания моего сайта ( http://liveudm.ru/) количество запросов 800 и более, я там в подвале сделал чтобы видно было.

  17. ваш сайт загрузил в validator.w3.org сообщение что есть 89 ошибок из них 8 опасных ??? но ваш сайт работает быстро )))

    • Не все ошибки можно исправить, и не все ошибки нужно исправлять :).
      К тому же, валидность кода меньше всего влияет на скорость загрузки страниц сайта.

  18. а вы можете так сразу сказать какие ошибки надо мне исправить? я бы был очень вам благодарен

    • Увы, нет.
      В комментариях я могу ответить только на вопросы, которые не нужно изучать дополнительно.
      На вопросы требующие изучения, я отвечаю только при личном консультировании.
      Но могу дать совет: Исправьте все, которые сможете :).

  19. Очередная обалденная статья.
    Не помню спрашивал у вас или нет - Зачем вы всю статью на главной открываете, а не анонсом? Что это дает?

    • Удобство чтения нового поста. Больше ничего.

  20. Здравствуйте, Ксана! Похоже, в Вашей статье есть небольшая неточность. Вот цитата из правил Яндекса:
    "Директивы Allow и Disallow из соответствующего User-agent блока сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для данной страницы сайта подходит несколько директив, то выбирается последняя в порядке появления в СОРТИРОВАННОМ списке. Таким образом порядок следования директив в файле robots.txt не влияет на использование их роботом."
    И еще вопрос: разве директива Disallow: /wp-* не закроет также доступ и ко всем папкам, имя которых начинается в wp- ? И, кстати, насколько нужен здесь знак "*" ?

    • Вот цитата из правил Яндекса

      Яндекс меняет свои правила чаще, чем я текст уже написанной статьи :).
      Но, вы правы в том, что теперь правило выглядит именно так, как вы его процитировали.
      Переписала статью под новые правила.

      И, кстати, насколько нужен здесь знак "*" ?

      По-большому счету, не нужен, но лишним тоже не будет.
      Можно использовать знак *, а можно его не использовать. Суть одно и то же.

  21. И еще забыл спросить: кто такие трекбеки и фиды и зачем их надо закрывать от индексации?

    • Кто может объяснить товарищу, что такое фид и трекбек?
      Не хочется посылать в google :).

  22. Получил на мыло вашу ссылку Оксана, как нельзя кстати. Химичить в файле самому было стрёмно. Но думаю с вашей помощью разберусь непримено. Спасибо.

  23. Ксана, здравия желаю!
    А почему Яндекс при проверке робота ругается вот так:
    20: Google Image: Обнаружена неизвестная директива

    • Это он на эту строчку ругается: Google Image:
      Это просто пояснение для владельца сайта (не для Яндекса), так что его можно удалить.

      • Ксана, я понял, спасибо!
        Тогда пусть остаётся.)))
        Позвольте воспользоваться вашей женской отзывчивостью наглым образом. (я старый солдат, НО всё ещё холодный Чайник))) Посмотрите, пжста, на правильность создания файла
        User-agent: *
        Disallow: /cgi-bin/
        Disallow: /wp-
        Disallow: */trackback
        Disallow: */comment-
        Disallow: */feed
        Disallow: /?s=
        Disallow: /xmlrpc.php
        Disallow: /2011/
        Disallow: /2012/
        Disallow: /2013/
        Disallow: /2014/
        Disallow: /page/
        Allow: /wp-content/uploads/
        Host: www.myrubicon.ru
        Sitemap: http://www.myrubicon.ru/sitemap.xml
        User-agent: Googlebot-Image
        Allow: /wp-content/uploads/
        User-agent: YandexImages
        Allow: /wp-content/uploads/
        User-agent: ia_archiver
        Disallow: /

        • Так будет правильно.
          Чтобы не повторять, отредактировала ваш код.

          • Ксана, спасибо!
            Я вас уже люблю, как...как...как боевого товарища, скупо и по-солдатски крепко))))

  24. Ксана, здравствуйте!
    Мой сайт под АГС . Переделала файл robots.txt.
    Теперь он выглядит так:
    User-agent: *
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /feed/
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */comments
    Disallow: /category/*/*
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /*?*
    Disallow: /?s=
    User-agent: Yandex
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /feed/
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */comments
    Disallow: /category/*/*
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /*?*
    Disallow: /?s=
    Host: repetitor-problem.net
    Sitemap: http://repetitor-problem.net/sitemap.xml.gz
    Sitemap: http://repetitor-problem.net/sitemap.xml
    Но в Вебмастер. Яндекс п ри проверке выдает :
    1: User-agent: *
    Обнаружена неизвестная директива
    2: Disallow: /wp-login.php
    Перед правилом нет директивы User-agent
    Что это значит? Какие внести исправления?
    БЛАГОДАРЮ заранее.

    • Disallow: /category/*/*
      Disallow: */*/trackback
      Disallow: */*/feed/*/

      Эта часть вызывает сомнения.
      Я бы переделала так:
      Disallow: /category/
      Disallow: */trackback
      Disallow: */feed/
      А эту часть сократила бы:

      Disallow: /wp-login.php
      Disallow: /wp-register.php
      Disallow: /wp-admin
      Disallow: /wp-includes
      Disallow: /wp-content/plugins
      Disallow: /wp-content/cache
      Disallow: /wp-content/themes

      Disallow: /wp-
      И я бы не писала директивы отдельно для каждого робота.
      Больше никакой крамолы не вижу, вроде все нормально.

    • Татьяна, скачайте свой robots.txt на компьютер, откройте не в обычном блокноте, а в Notepad++ в верхнем меню "Кодировки" выберите пункт "Кодировать в UTF-8 (без BOM)", сохраните и залейте обратно в корень сайта. Проверьте в яндекс анализе robots.txt, всё должно быть хорошо. По крайней мере мне помогло.

    • Disallow: /*?* такая фича если вы не поменяли дефолтный вид ссылок типа вашблог/?p=416 выкинет из индекса все на свете не только теги категории архивы но и сами посты останется одна морда сайта

  25. Здравствуйте, Ксана! Я вижу в вашем файле robots.txt строку Disallow: *?replytocom=, но в поиске у Гугла у вас 3730 страниц и эта функция присутствует, и даже очень много раз. Вот, например, prodengiblog.ru/otzyvy?replytocom=2084

    • Я недавно обнаружила (когда писала этот пост), что на блоге есть страницы с такими адресами и запретила индексацию их в robots.txt, со временем эти страницы выпадут из поиска.

  26. А у меня может быть странный вопрос. Смотрю статистику Яндекс вебмастера, робот сначала загружает все, что можно, а затем исключает, то, что запрещено файлом роботс. А можно сделать так, чтобы загружались только те страницы, которые нужны, а не всевозможные?

    • Нет, роботы действуют именно так и от нас в этом вопросе мало что зависит.

  27. Я сделал все как написано в статье, спасибо. Ладно хоть сейчас увидел эту статью

  28. Ксана, будьте добреньки, ответьте!
    Видеоконтент, свой-родной, загруженный с YouTube на свой-же сайт, надо включать в индексацию?

    • Если сайт очень молодой или близок к ГС - тогда не надо, ибо нужно ограничить все внешние ссылки.
      Если сайту от года и это СДЛ, тогда включайте в индекс.
      Если есть необходимость постоянно так видео подгружать, то на ютубе можно создать собственный канал, в который загружать видео, а с него поставить ссылку на сайт, тем самым указав поисковикам, что это канал сайта.

  29. Простите, ГС и СДЛ - это?
    Необходимость постоянно подгружать есть. На ютубе свой канал есть.
    На сайте нет прямых ссылок, я использую шорткод, где только ID.
    1. Как поставить ссылку на ютубе?
    2. Поисковики и ютуб индексят?
    3. На сайте сделать тоже ссылку на ютубовский канал? Не пойму связь ютуб-сайт-поисковики.
    Простите за скудоумие.

    • Простите, ГС и СДЛ - это?

      ГС - это плохие сайты (я барышня воспитанная 🙂 и поэтому прямым текстом писать не могу), а СДЛ - это Сайты Для Людей.
      Обо всем остальном не подскажу - на знаю, спросите лучше на Форуме в разделе Индексация.

  30. Ksana, спасибо! Уже подцепила сайт к каналу. Спасибо!!!
    Robots-на очереди.

Ответ на комментарий

Войти, чтобы написать отзыв.

Внимание: все отзывы проходят модерацию.

Топ комментаторов
АватарАватарАватарАватарАватарАватарАватарАватарАватарАватарАватарАватарАватарАватарАватарАватарАватарАватарАватарАватар
Самые комментируемые записи
Самые читаемые записи

Для того чтобы снять блок и увидеть скрытый контент или ссылку на скачивание, подпишитесь на обновления блога.

В каждом письме публикуется код разблокировки.

Пользуйтесь кодом только из последних, пришедших вам на Email, писем. Закрыть »

Постов 204
Отзывов 5460