Как правильно составить robots.txt для сайта на wordpress

Автор:
(Людмила Лунева)

Веб-дизайнер и разработчик сайтов на wordpress

Начало статьи читайте здесь »
Файл robots.txt - это служебный файл, в котором можно указать роботам ПС (поисковых систем), какие разделы сайта индексировать, а какие нет. Сделать это можно с помощью специальных директив. Директивы можно написать для всех роботов одновременно или отдельно для робота каждой ПС.
Разделы, закрытые от индексации, не попадут в индекс поисковых систем.
Правильный robots.txt для сайта на wordpress
Что такое Индекс?
Это база данных поисковой системы, в которой она хранит набор встречающихся на интернет-страницах слов и словосочетаний. Эта информация соотнесена с адресами тех веб-страниц, на которых она встречаются, и постоянно пополняется новой информацией, собираемой роботом-пауком поисковой системы.
Для того, чтобы сайт появлялся в выдаче поисковой системы по определенным запросам, он должен быть занесен в индекс этой поисковой системы.
Вообщем, robots.txt – это очень полезный и нужный любому сайту файл.

Общая для всех сайтов часть файла:

Итак, создаем текстовый документ с названием robots.txt и пишем в него следующее:

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-
Disallow: /*trackback
Disallow: /feed
Disallow: /?s=
Disallow: /xmlrpc.php
Allow: /wp-content/uploads/
Host: www.yourdomain.ru
Sitemap: http://yourdomain.ru/sitemap.xml
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: YandexImages
Allow: /wp-content/uploads/
User-agent: ia_archiver
Disallow: /

Пояснения:

  • User-agent: * - Директива всем роботам

    Если нужно, чтобы эти правила работали только для одного, конкретного робота, то вместо * указываем его имя (User-agent: Yandex, User-agent: Googlebot и т.д.).

  • Disallow: /cgi-bin/

    Здесь мы запрещаем индексировать папку со скриптами.

  • Disallow: /wp- - Запрещает индексацию всех папок и файлов движка, начинающихся с wp- (т.е. папок /wp-admin/, /wp-includes/, /wp-content/ и всех файлов, расположенных в корневой папке).
  • Disallow: /*trackback
    Disallow: /*comment-
    Disallow: /feed

    Запрещаем индексацию комментариев, трекбеков и фида.
    Спецсимвол * означает любую (в том числе пустую) последовательность символов, т.е. все, что находится в адресе до указанной части или после нее.

  • Disallow: /?s= - Запрещаем индексацию результатов поиска.
  • Allow: /wp-content/uploads/ - Разрешение индексировать папку uploads (а значит и расположенные в ней картинки).

    Правило Яндекса для robots.txt гласит:

    "Директивы Allow и Disallow из соответствующего User-agent блока сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для данной страницы сайта подходит несколько директив, то выбирается последняя в порядке появления в сортированном списке."
    Получается, что директиву Аllow можно указать в любом месте.
    Яндекс самостоятельно сортирует список директив и располагает их по длине префикса.
    Google понимает Allow и вверху и внизу секции.
    Касательно директивы Allow: /wp-content/uploads/ - поскольку, далее мы разрешаем индексировать роботам-индексаторам картинок папку с картинками, я не уверена, что эта директива нужна.
    Но, наверное, лишней не будет. Так что, это - на ваше усмотрение.

  • Host: www.glavnoye-zerkalo.ru - Директива Host понимается только Яндексом и не понимается Гуглом.

    В ней указывается главное зеркало сайта, в случае, если у вашего сайта есть зеркала. В поиске будет участвовать только главное зеркало.

    Директиву Host лучше написать сразу после директив Disallow (для тех роботов, которые не полностью следуют стандарту при обработке robots.txt).
    Для Яндекса директива Host являются межсекционной, поэтому будет найдена роботом не зависимо от того, где она указана в файле robots.txt.
    Важно: Директива Host в файле robots.txt может быть только одна.
    В случае указания нескольких директив, использоваться будет первая.

  • Sitemap: http://mysite.ru/sitemaps.xml - Указываем путь к файлу sitemaps.xml

    Для Яндекса и Google Sitemap - это межсекционная директива, но лучше написать ее в конце через пустую строку. Так она будет работать для всех роботов сразу.

  • User-agent: Googlebot-Image
    Allow: /wp-content/uploads/
    User-agent: YandexImages
    Allow: /wp-content/uploads/

    Разрешает роботам Googlebot и YandexImages индексировать наши картинки.

  • User-agent: ia_archiver
    Disallow: /

    Полностью запрещаем роботу веб архива индексацию нашего сайта.
    Это предупредительная мера, которая защитит сайт от массового парсинга контента через веб архив.

Итак, мы рассмотрели стандартную часть файла robots.txt, которая подойдет для любого сайта на wordpress.
Но, нам нужно спрятать от роботов-индексаторов еще некоторые разделы сайта, в частности, те, которые создают дублированный контент - разного рода архивы.

Индивидуальные настройки:

  • Если на вашем сайте есть система древовидных комментариев, как на моем блоге, тогда нужно запретить индексацию таких адресов:

    *?replytocom=

    Их создает кнопка (ссылка) "Ответить на комментарий".

  • Страницы архивов на разных сайтах имеют различные адреса, в зависимости от того, как формируются URL на сайте, включены ли ЧПУ или нет.
    Как определить адреса архивов вашего сайта?

    Для этого нужно открыть архив любого месяца и посмотреть, как выглядит адрес страницы архива.

    Он может выглядеть, например, так: http://sait.ru/archives/date/post-1.

    В этом случае, выделяем общую для всех архивов по дате часть адреса:
    /archives/date/.
    Соответственно, в файле robots.txt указываем:
    Disallow: /archives/date/*
    Будьте внимательны - у вас архивы могут иметь другие адреса.
    Например, архив года может иметь такой адрес: http://sait.ru/2012
    Тогда закрывать нужно эту часть - /2012/
    Напоминаю, что спецсимвол * означает любую последовательность символов, т.е. все, что находится в адресе далее.

  • Точно так же определяем адреса архивов тегов и архивов автора.
    И закрываем их в robots.txt.

    Disallow: /archives/tag/
    Disallow: /archives/author/

    Рекомендую архивы тегов закрыть примерно на полгода-год, (если у вас молодой сайт) пока он стабильно пропишется в поисковой выдаче.
    После этого срока архивы тегов стоит открыть для индексации, так как по наблюдениям, на страницы тегов по поисковым запросам приходит значительно больше посетителей, чем на страницы постов, к которым эти теги созданы.
    Но, не добавляйте к постам много тегов, иначе вашему сайту будут грозить санкции за дублированный контент.
    Один-два (редко три) тега к одному посту вполне достаточно.

  • Можно, также, закрыть индексацию всех главных страниц, кроме первой.

    Обычно, их адреса выглядят так: http://sait.ru/page/2, http://sait.ru/page/3 и т. д., но лучше проверить.
    Перейдите по ссылкам навигации внизу Главной страницы на вторую страницу и посмотрите, как выглядит ее адрес в адресной строке.
    Закрываем эти страницы:
    Disallow: /page/*

  • Иногда, на сайте требуется закрыть от индексации еще какие то страницы или папки. В этом случае, действуете аналогично - открываете в браузере нужную вам страницу и смотрите ее адрес. А дальше закрываете его в robots.txt.

    Учтите, что если вы закрываете, например, папку "book", то автоматически закроются и все файлы, расположенные в этой папке.

    Если закрыть страницу, в URL'е которой есть, например, "news" так: */news/,
    то закроются и страницы /news/post-1 и /category/news/.

robots.txt полностью ↓

Открыть ↓
Для разблокировки содержимого, введите код из последнего, присланного вам письма.

Справка:

Подробности составления robots.txt можно изучить на странице помощи Яндекса - http://help.yandex.ru/webmaster/?id=996567
Проверить правильность составления файла можно в webmaster.yandex - Настройка индексирования - Анализ robots.txt
В Google robots.txt можно проверить по этой ссылке:
https://www.google.com/webmasters/tools/crawl-access?hl=ru&siteUrl=http://site.ru/
Проверяемый сайт должен быть добавлен в панель веб-мастера.
P.S. Для Яндекса и Google правила составления robots.txt немного различаются.
Толкование правил составления robots.txt можно прочитать здесь - http://robotstxt.org.ru
К сожалению, проверить можно только синтаксис.
Правильно ли вы закрыли от индексации разделы сайта, покажет только время :).
Ну вот и все - файл robots.txt готов, осталось только загрузить его в корневой каталог нашего сайта.
Напоминаю, что корневой каталог это папка в которой находится файл config.php.
И последнее - все, сделанные вами изменения в robots.txt, будут заметны на сайте только спустя несколько месяцев.

В тему:

Однажды видела сайт на wordpress, на котором не было файла robots.txt.
Этот сайт некоторое время простоял пустым - т.е. с одной стандартной записью, которая по умолчанию присутствует в wordpress.
Представьте себе, какой шок испытал владелец сайта, когда обнаружил, что Яндекс проиндексировал 2 страницы с контентом и больше тысячи страниц самого движка 🙂
На этой веселой ноте заканчиваю.

Внутренняя оптимизация сайта:

1. Оптимизация кода шаблона.

2. Оптимизация контента.

3. Перелинковка.

4. Файл robots.txt.

5. Файл sitemap.xml.

6. Пинг.

  1. 5
  2. 4
  3. 3
  4. 2
  5. 1

(9 голосов, в среднем: 3.4 из 5)

Комментарии

  1. День добрый, хочу обратиться к Вам за помощью. С моим сайтом возникла проблема, яндекс не под каким предлогом не хочет заходить на мой сайт, он его вообще не видит пишет что нет такого сайта. Что могло случиться ведь пару дней назад все было хорошо...
    А потом резко начал падать в рейтинге, а теперь ни рейтинга не заходов с яндекса вообще нет!!! Если можете подскажите что не так могло пойти.

    • Могло произойти все, что угодно.
      Для того, чтобы понять в чем причина, нужно провести анализ сайта. вы можете заказать аудит сайта здесь.

  2. Вообще то хоть немножко разобралась благодаря вам... Тяжело живется чайнкам... А то трафик упал конкретно, может от того, что у меня очень много звуковых файлов, у меня аудио уроки английского. Может папку аудио тоже закрыть?

  3. Здравствуйте Ксана. Сможете может помочь? Вот мне одна школа на бесплатном курсе дала такой файл робота. Поисковики, поначалу индексировали, потом пишут, что робот запрещает???....
    Спасибо...
    User-agent: *
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /feed/
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */comments
    Disallow: /category/*/*
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /*?*
    Disallow: /?s=
    User-agent: Yandex
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /feed/
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */comments
    Disallow: /category/*/*
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /*?*
    Disallow: /?s=
    Host: v-zerkale-zizni.ru
    Sitemap: http://v-zerkale-zizni.ru/sitemap.xml.gz
    Sitemap: http://v-zerkale-zizni.ru/sitemap.xml

    • Попробуйте открыть для индексации категории, для этого удалите эту строку:
      Disallow: /category/*/*
      Больше ничего спорного я не вижу.

  4. Файл robots.txt доступен для просмотра любому пользователю интернета, достаточно набрать в адресной строке сайт.ru/robots.txt и сможете посмотреть robots.txt у любого сайта. Смотрите как прописаны директивы у популярных блогов на СMS WordPress и учитесь. :))

  5. Добрый день!
    Подскажите, у меня все хорошо, или лучше переделать? Спасибо!
    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /*?*
    Disallow: /tag
    User-agent: Yandex
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /*?*
    Disallow: /tag
    Host: supermouce.ru
    Sitemap: http://supermouce.ru/sitemap.xml.gz
    Sitemap: http://supermouce.ru/sitemap.xml

  6. Привет Ксана

    Правильно ли вы закрыли от индексации разделы сайта, покажет только время

    проверка на http://www.siteliner.com/ показала, что мой робот никуда не годится
    54% дубля, robots txt брал правда в другом месте
    теперь воспользовался предложенным Вами,и сразу возникает вопрос
    у меня категории разделены на под категории
    то есть, есть категория Дома, и есть подкатегории 1 комнатные дома, 2х комнатные дома и т.д.
    Если категории оставить открытыми, а подкатегории закрыть, в роботе нужно прописать так?
    Disallow: /2x-komnatnye-doma/*
    Disallow: /1-komnatnye-doma/*
    или как то по другому ?
    и еще...в роботе я прописал Disallow: /tag/*
    при оптимизации темы, по предложенному Вами методу http://prodengiblog.ru/archives/2294
    это не повредит ?
    пока категории оставил закрытыми..от греха подальше.

    • Disallow: /2x-komnatnye-doma/*
      Disallow: /1-komnatnye-doma/*

      Все зависит от того, как у вас на сайте формируются адреса записей.
      Если в адресе записи есть название подкатегории, тогда Disallow: /2x-komnatnye-doma/* закроет все записи в этой категории.

      в роботе я прописал Disallow: /tag/*

      Теги стоит закрывать, если вы добавляете к каждой записи много меток.
      Если добавляете одну метку, их можно не закрывать.

  7. Значит если адрес записи выглядит так
    http://мой сайт.ru/category/evpatoriya-doma/2x-komnatnye-doma
    то категория дома закроется полностью ?
    получается,что единственный выход,это избавляться от под категорий,которые создают дубли,и сваливать всю инфу в кучу.
    а ведь для пользователей удобней когда все разложено по полочкам
    или закрывать категории вовсе от индексации
    Метки,как Вы и советовали я проставил по 1-2,ну и иногда реже три.

    • Можно исправить URL'ы записей так, чтобы в них не присутствовали названия категорий.
      Но, это, если сайт новый.

  8. Сайт новый,ему только месяц с небольшим
    пока решил проблему удалением под категорий
    меток проставил по одной,и открыл в роботе
    также открыл и категории,интересно,а сейчас будет много дублей ?
    как теперь мне поступить с не существующими ссылками оставшимися после удаления под категорий ?
    подать запрос на удаление в гугл вебмастер,или как читал в интернетах
    "само отвалится "?

  9. Здравствуйте.
    вышел к вам из поисковика по ia_archiver
    Есть у меня форум.
    хотелось бы, чтобы главная страница и страницы разделов были в базе arhive.org
    а страницы тем (их очень много), чтобы были удалены из их базы.
    структура страниц такая:
    эти страницы нужны в их базе
    myforum.com
    myforum.com/forum1.html
    myforum.com/forum2.html
    myforum.com/forum3.html
    эти страницы не нужны:
    myforum.com/topic1.html
    myforum.com/topic2.html
    myforum.com/topic3.html
    ...
    myforum.com/topic99999.html
    сделал так:
    User-agent: ia_archiver
    Disallow: /topic
    вроде норм? как считаете?
    для яндекса и гугла такое срабатывало.
    чтобы не прописывать все страницы одной темы в роботсе
    http://myforum.com/topic123s0.html
    http://myforum.com/topic123s15.html
    http://myforum.com/topic123s30.html
    делал так
    User-agent: *
    Disallow: /topic123
    и норм.

  10. Здравствуйте, Ксана! Помогите пожалуйста разобраться, поставил предложенный в статье robots.txt а при проверке его здесь - http://webmaster.yandex.ua/robots.xml#results были выявлены такие ошибки:
    1-15
    User-agent: *
    Disallow: /cgi-bin/
    ...
    Host: content-bis.com.ru
    17-17 Sitemap: http://content-bis.com.ru/sitemap.xml
    Что не так, помогите разобраться?
    Сам robots.txt
    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /wp-
    Disallow: */trackback
    Disallow: */comment-
    Disallow: *?replytocom=
    Disallow: */feed
    Disallow: /?s=
    Disallow: /xmlrpc.php
    Disallow: /archives/date/
    Disallow: /archives/tag/
    Disallow: /archives/author/
    Disallow: /page/
    Allow: /wp-content/uploads/
    Host: content-bis.com.ru
    Sitemap: http://content-bis.com.ru/sitemap.xml
    User-agent: Googlebot-Image
    Allow: /wp-content/uploads/
    User-agent: YandexImages
    Allow: /wp-content/uploads/
    User-agent: ia_archiver
    Disallow: /

    • Это не ошибки, это используемые роботом Яндекса строки :).

  11. Ксана, я опять с вопросом
    я решил продвигать категории, если я в роботе пропишу
    Disallow: /category/*
    то перекрою дубли (2, 3, 4 стр категорий)?

    • Если вы так напишете, то закроете, вообще, все категории :).

  12. /Здравствуйте. Помогите пожалусто с робот текстом. Яндекс проиндексирвал только сам сайт а страницы не одной что тут не так я в этом совсем не понимаю
    User-agent: *
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /feed/
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */comments
    Disallow: /category/*/*
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /*?*
    Disallow: /?s=
    User-agent: Yandex
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /feed/
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins

    • В посте есть пример файла robots.txt - воспользуйтесь им.

      • это тот что в самом начале???
        или то что открывается с помощью кода?

  13. а вы не подскажите как узнать находится ли наш сайт под фильтром у гугла и яндекса???

  14. Здравствуйте, Ксана! У меня такая проблема. После того, как обнаружил на сайте большую заспамленность ссылками, переделал robots.txt. До этого страницы моментально индексировал Яндекс, а теперь перестал, хотя в Яндекс.Вебмастере стоит отметка "разрешен". Вот мой новый robots.txt:
    User-agent: Mediapartners-Google
    Disallow:
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */comments
    Disallow: /comment-subscriptions*
    Disallow: /tag/
    Disallow: /feed/
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: */*/feed
    Disallow: /?feed=
    Disallow: /*?*
    Disallow: /?s=
    Disallow: /20*/*
    Disallow: /page/*
    Disallow: /comment-page*
    Disallow: /*/?replytocom=*
    Disallow: */attachment/
    Allow: /wp-content/uploads/
    Sitemap: http://narodnaiamedicina.ru/sitemap.xml.gz
    Sitemap: http://narodnaiamedicina.ru/sitemap.xml
    User-agent: Yandex
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */comments
    Disallow: /comment-subscriptions*
    Disallow: /tag/
    Disallow: /feed/
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: */*/feed
    Disallow: /?feed=
    Disallow: /*?*
    Disallow: /?s=
    Disallow: /20*/*
    Disallow: /page/*
    Disallow: /comment-page*
    Disallow: */attachment/
    Allow: /wp-content/uploads/
    Host: narodnaiamedicina.ru
    Sitemap: http://narodnaiamedicina.ru/sitemap.xml.gz
    Sitemap: http://narodnaiamedicina.ru/sitemap.xml

    • А зачем вы посвятили так много строк фиду?
      Disallow: /feed/
      Disallow: */*/feed/*/
      Disallow: */feed
      Disallow: */*/feed
      Disallow: /?feed=
      Неужели ваш фид открывается по всем этим адресам :)?

      • Честно говоря, я не знаю о фидах ничего (где-то скопировал робот). Вы не могли бы мне прислать правильно оформленный файл robots.txt. Я подписался у вас на рассылку.

        • К сожалению, нет. Индивидуальные заказы выполняются за оплату.

          • В таком случае подскажите, пожалуйста, как с помощью robots.txt запретить индексация ссылок с такими тегами:
            /#comment-1336
            /novosti/page/2
            #respond

          • Url'ы со знаком # закрывать от индексирования не нужно. Поисковые роботы и так не индексируют то, что идет после знака #.
            Этот url можно закрыть так:
            Disallow: /novosti/page/

  15. Ксана, здравствуйте!
    Помогите пожалуйста разобраться, я обнаружил, что у меня индексируется почти на половину больше материала чем есть на самом деле. Опубликовано 485, а индексируется 952. В яндекс вебмастер обнаружил, что в индексе много ссылок тегов и дублей страниц, что лучше предпринять?
    Робот txt собирал по Вашим материалам, может, что-то где-то не понял и не так прописал. Искал вчера ответ, посоветовали - Disallow: /tag/ , а смотрю в txt есть похожая строка - /archives/tag/* - это не тоже самое?
    Вот мой txt
    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /wp-content/
    Disallow: /wp-*
    Disallow: */trackback
    Disallow: */comments
    Disallow: */comment-*
    Disallow: */feed
    Disallow: /?s=
    Disallow: /xmlrpc.php
    Disallow: /archives/date/*
    Disallow: /blog/2012/
    Disallow: /blog/2013/
    Disallow: /archives/tag/*
    Disallow: /archives/author/*
    Disallow: /page/*
    Host: content-bis.com.ru
    Sitemap: http://content-bis.com.ru/sitemap.xml
    Sitemap: http://content-bis.com.ru/sitemap.xml.gz
    User-agent: Googlebot-Image
    Allow: /wp-content/uploads/
    User-agent: YandexImages
    Allow: /wp-content/uploads/
    User-agent: ia_archiver
    Disallow: /
    Спасибо!
    С наступающим Вас Новым Годом, Ксана!

    • Это одно и то же, но все зависит от того, какие адреса имеют теги на вашем сайте.
      Откройте страницу тега и посмотрите, а потом укажите адрес тега в robots.txt.

  16. Тоесть, мне закрывать так все теги в робот txt, а общего варианта нет? Вот например в статье "В Японии разработали искусственную эмаль зуба" есть тег "эмаль зуба", а ссылка выглядит вот так "http://content-bis.com.ru/tag/emal-zuba/", как тогда поступать?

    • Не все теги :), а общая часть URL'а тега:
      Disallow: /tag/

      • Спасибо, Ксана! С наступающим Вас Новым Годом!

  17. Здравствуйте Ксана! У меня проблемы с индексированием сайта, то архивы индексируются, то не все страницы попадают в индексацию, некоторые страницы вообще выпали из яндекса. Подскажите пожалуйста, в чем ошибки. Вот мой robots.txt:
    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: /feed/
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /*?*
    Disallow: /?s=
    User-agent: Yandex
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: /feed/
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /*?*
    Disallow: /?s=
    Host: receptya.ru
    Sitemap: http://receptya.ru/sitemap.xml.gz
    Sitemap: http://receptya.ru/sitemap.xml

    • Вера, в этом посте я подробно рассказала, как настроить файл robots.txt.
      Не нужно присылать мне простыни кода из вашего robots.txt - просто прочитайте статью еще раз и сделайте все, что там написано.

  18. Очень помогла данная статья и ответы в комментариях!
    Спасибо большое!
    Поправил свой robots.txt
    Буду ждать теперь индексации.

  19. Здравствуйте. Подскажите как сделать, чтоб индексировалась страница моего сайта с фотографиями (http://kovkavolgograd.ru/?page_id=30)?
    С Ув.

    • Купить на нее ссылки с хороших сайтов.

  20. Странно, стоит в роботс Disallow: /?s=, но если проверить в вебмастере яндекса, результат поиска, то пишет что разрешён...

  21. Скажите, а вот такой вид мало?
    Если мне робот выдает такой список это не достаточно?
    Робот же по сайтмепу может лазить или нужно прописывать все строки, категории?
    User-agent: *
    Disallow: /wp-admin/
    Sitemap: http://pret-a-portrait.ru/sitemap.xml

    • Зависит от того, что именно вы хотите скрыть от индексации.
      В посте приведен robots.txt, который я рекомендую для сайта на wordpress.

      • Дело в том, что я ничего не собираюсь скрывать.
        Может быть хотя бы и потому, что не знаю, зачем что-то скрывать и для чего???
        Скажите просто, что мне должно или Вам говорит эта статистика?
        User-agent: *
        Disallow: /wp-admin/
        Sitemap: http://pret-a-portrait.ru/sitemap.xml
        Нужно ли что-то менять или добавлять?
        Правильно ли я понимаю, раз индексируется сайтмеп, то все страницы сайта проходят индексацию?

        • Ваш код Disallow: /wp-admin/
          скрывает от индексации админку сайта и больше ничего.

  22. Здравствуйте Ксана! Пришёл к вам из Гугла по запросу как исключить индексацию comment-subscriptions
    В принципе я знал, что можно было закрыть это через фай robots.txt, но...в этом случае гугл будет по любому захватывать эти ссылки в сопли и соответственно появляются дубли! Думаю что надо закрыть их через meta robots noindex,nofollow в файле function.php
    Как вы думаете, я прав или у вас другое мнение? Вы наверно читали две статьи от Александра Борисова по поводу дублей страниц?
    Заранее спасибо

    • Я думаю, что проблема с индексацией комментариев - это паранойя :).
      Проиндексированные комменты попадают в дополнительный индекс, это значит, что Google прекрасно понимает, что он индексирует и ценность этого.
      Я не заморачиваюсь с индексацией комментариев и вам не советую.

      • Спасибо Ксана, но я не имел ввиду индексацию комментариев, а имел ввиду ссылки с подписками на уведомления комментариев!
        Просто, в аналитике от гугла, мне показаны все подписки моих комментаторов обозначены как ошибки 404. Не знаю почему гугл взял в индекс сами подписки - comment-subscriptions

        • Никогда на это не обращала внимание.

  23. Подскажите пожалуйста, а в чем разница между ?
    Disallow: */comment-
    и
    Disallow: */comments

    • Вы можете сами ответить на этот вопрос.
      Представьте, что в адресе вашего сайта есть /comment-
      и /comments и вы закрываете от индексации страницы, которые содержат такие адреса.

  24. Здравствуйте!
    Спасибо за полезную статью. Теперь знаю, что для моего сайта сделали неправильный файл robots.txt . Поэтому просьба разъяснить следующее:
    1. На сайте с WordPress с ЧПУ мне нужно закрыть от индексации наряду со служебными разделами WP также результаты поиска по сайту и дубли. Если написать в robots.txt эти две директивы:
    Disallow: /?s=
    Disallow: /*?*
    то не будут ли исключены из индекса нужные мне УРЛы, в адресах которых присутствует буква «s» ?
    2. Мой сайт создан не для блога, на нем нет регистрации для посетителей, соответственно нет логин / пароль для входа, нет возможности для комментариев и т.д. В таком случае нужны ли вообще в robots.txt эти директивы во всех вариациях:
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /trackback
    Disallow: /trackback/
    Disallow: */trackback
    Disallow: */trackback/
    Disallow: */*/trackback
    Disallow: /feed/
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /?feed=
    Disallow: /comments/
    Disallow: */comments/
    Если нужны, то какие именно?
    Заранее спасибо.

    • 1. Если в адресах есть буква S после знака вопроса, то будут. Остальные - нет.
      2. Введите в адресную строку эти ссылки и проверьте, есть ли они на вашем сайте.

      • Большое спасибо, Людмила, за быстрый и понятный ответ. Очень помогли мне. Всего Вам доброго.
        Сергей

  25. Здравствуйте, Людмила!
    Ещё один вопрос, на который не могу найти ответ. Был бы благодарен за Ваше мнение. Напомню, что мой сайт - не блог, а сайт небольшого агентства недвижимости.
    Сайт на WordPress, подкорректировал robots согласно рекомендациям, а также примерам на различных сайтах. Наряду с прочими директивами имеются и вот эти:
    Disallow: /wp-includes/
    Disallow: /wp-content/plugins/
    Disallow: /wp-content/themes/
    Проверяю мои страницы в webmaster Гугла в разделе "Посмотреть как Googlebot". При таком robors на страницах отображаются только тексты, то есть сайт выглядит как полу-фабрикат. А фотографии, дизайн, элементы оформления, таблицы и т.д. не видны. Указываетя, что блокировка этих элементов происходит из-за директив:
    Disallow: /wp-includes/
    Disallow: /wp-content/plugins/
    Disallow: /wp-content/themes/
    В этой связи вопрос. Так и должно быть, что сайт выглядит для поисковиков усеченным? Или всё же он будет понижен в результатах выдачи поисковиков из-за того, что он выглядит в их глазах ущербным?
    Сергей К.

  26. Что нужно сделать в такой ситуации?

  27. Здравствуйте!
    Подскажите пожалуйста, а то я никак разобраться не могу. Зачем закрывать от индексации папку wp-content. Там ведь расположена тема, с которой я работаю, соответственно и файлы functions.php, loop-single.php, header.php и т.д.
    И почему многие пишут /wp-content/themes. Правильно же так /wp-content/themes/ (с чертой на конце)

    • Да, правильно именно так, но робот-индексатор понимает и без слеша.

  28. User-agent: *
    Allow: /$
    Allow: /*?page
    Allow: /*?ref=
    Allow: /stat/
    Disallow: /*?
    Disallow: /index/1
    Disallow: /index/3
    Disallow: /register
    Disallow: /index/5
    Disallow: /index/7
    Disallow: /index/8
    Disallow: /index/9
    Disallow: /index/sub/
    Disallow: /panel/
    Disallow: /admin/
    Disallow: /informer/
    Disallow: /secure/
    Disallow: /poll/
    Disallow: /search/
    Disallow: /abnl/
    Disallow: /*_escaped_fragment_=
    Disallow: /*-*-*-*-987$
    Disallow: /shop/checkout/
    Disallow: /shop/user/
    Disallow: /*0-*-0-17$
    Host: www.мой сайт
    Sitemap: http://мой сайт/sitemap.xml
    Скажите пожалуйста. Стоит ли мне закрыть первые 4 пункта? или оставить так Allow?

  29. Здравствуйте.
    У наст тема Infobiz премиум.
    1) В описании указано, что в теме уже закрыт весь дублированный контент. Означает ли это что: уже запрещены древовидные комментарии, архивы (в том числе тегов и автора), /page/*?
    2) Правильно ли мы пониманием, что следует запретить индексировать папку со скриптами, плагинами, веб архив, всех папок и файлов движка, начинающихся с wp- , трекбеков и фида, результаты поиска?
    3) Каким роботам Вы рекомендуете разрешить индексацию: Яндекс, Mail.Ru, Rambler, Google, Google Картинки, Google Мобильный, Aport, MSN Поиск, MSN Картинки, Yahoo.
    4) Какую задержку Вы рекомендуете установить для индексации роботами: от 5 до 120 сек.
    Заранее спасибо за ответы.

    • 1) В описании указано, что в теме уже закрыт весь дублированный контент. Означает ли это что: уже запрещены древовидные комментарии, архивы (в том числе тегов и автора), /page/*?

      В теме закрыто то, что возможно закрыть в теме - ссылки на страницы с дублированным контентом.
      Но, подумайте сами, как можно в теме закрыть от индексации то, что должно находиться в robots.txt?

      2) Правильно ли мы пониманием, что следует запретить индексировать папку со скриптами, плагинами, веб архив, всех папок и файлов движка, начинающихся с wp- , трекбеков и фида, результаты поиска?

      Да, правильно.

      3) Каким роботам Вы рекомендуете разрешить индексацию: Яндекс, Mail.Ru, Rambler, Google, Google Картинки, Google Мобильный, Aport, MSN Поиск, MSN Картинки, Yahoo.

      Роботам тех ПС, которые вы хотите, чтобы индексировали сайт.

      4) Какую задержку Вы рекомендуете установить для индексации роботами: от 5 до 120 сек.

      30"

Ответ на комментарий

Войти, чтобы написать отзыв.

Внимание: все отзывы проходят модерацию.

Топ комментаторов
АватарАватарАватарАватарАватарАватарАватарАватарАватарАватарАватарАватарАватарАватарАватарАватарАватарАватарАватарАватар
Самые комментируемые записи
Самые читаемые записи

Для того чтобы снять блок и увидеть скрытый контент или ссылку на закачку, подпишитесь на обновления блога.

В каждом письме публикуется код разблокировки.

Пользуйтесь кодом только из последних, пришедших вам на Email, писем. Закрыть »

Постов 204
Отзывов 5328