Как правильно составить robots.txt для сайта на wordpress

Автор: Ксана
(Людмила Лунева)
Веб-дизайнер и разработчик сайтов на wordpress

Начало статьи читайте здесь »
Файл robots.txt - это служебный файл, в котором можно указать роботам ПС (поисковых систем), какие разделы сайта индексировать, а какие нет. Сделать это можно с помощью специальных директив. Директивы можно написать для всех роботов одновременно или отдельно для робота каждой ПС.
Разделы, закрытые от индексации, не попадут в индекс поисковых систем.
Правильный robots.txt для сайта на wordpress
Что такое Индекс?
Это база данных поисковой системы, в которой она хранит набор встречающихся на интернет-страницах слов и словосочетаний. Эта информация соотнесена с адресами тех веб-страниц, на которых она встречаются, и постоянно пополняется новой информацией, собираемой роботом-пауком поисковой системы.
Для того, чтобы сайт появлялся в выдаче поисковой системы по определенным запросам, он должен быть занесен в индекс этой поисковой системы.
Вообщем, robots.txt – это очень полезный и нужный любому сайту файл.

Общая для всех сайтов часть файла:

Итак, создаем текстовый документ с названием robots.txt и пишем в него следующее:

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-
Disallow: /*trackback
Disallow: /feed
Disallow: /?s=
Disallow: /xmlrpc.php
Allow: /wp-content/uploads/
Host: www.yourdomain.ru
Sitemap: http://yourdomain.ru/sitemap.xml
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: YandexImages
Allow: /wp-content/uploads/
User-agent: ia_archiver
Disallow: /

Пояснения:

User-agent: * - Директива всем роботам

Если нужно, чтобы эти правила работали только для одного, конкретного робота, то вместо * указываем его имя (User-agent: Yandex, User-agent: Googlebot и т.д.).
Disallow: /cgi-bin/
Disallow: /cgi-bin/
Здесь мы запрещаем индексировать папку со скриптами.
Disallow: /wp- - Запрещает индексацию всех папок и файлов движка, начинающихся с wp- (т.е. папок /wp-admin/, /wp-includes/, /wp-content/ и всех файлов, расположенных в корневой папке).
Disallow: /*trackback Disallow: /*comment- Disallow: /feed
Disallow: /*trackback Disallow: /*comment- Disallow: /feed
Запрещаем индексацию комментариев, трекбеков и фида.
Спецсимвол * означает любую (в том числе пустую) последовательность символов, т.е. все, что находится в адресе до указанной части или после нее.
Disallow: /?s= - Запрещаем индексацию результатов поиска.
Allow: /wp-content/uploads/ - Разрешение индексировать папку uploads (а значит и расположенные в ней картинки).

Правило Яндекса для robots.txt гласит:

"Директивы Allow и Disallow из соответствующего User-agent блока сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для данной страницы сайта подходит несколько директив, то выбирается последняя в порядке появления в сортированном списке."
Получается, что директиву Аllow можно указать в любом месте.
Яндекс самостоятельно сортирует список директив и располагает их по длине префикса.
Google понимает Allow и вверху и внизу секции.
Касательно директивы Allow: /wp-content/uploads/ - поскольку, далее мы разрешаем индексировать роботам-индексаторам картинок папку с картинками, я не уверена, что эта директива нужна.
Но, наверное, лишней не будет. Так что, это - на ваше усмотрение.
Host: www.glavnoye-zerkalo.ru - Директива Host понимается только Яндексом и не понимается Гуглом.

В ней указывается главное зеркало сайта, в случае, если у вашего сайта есть зеркала. В поиске будет участвовать только главное зеркало.

Директиву Host лучше написать сразу после директив Disallow (для тех роботов, которые не полностью следуют стандарту при обработке robots.txt).
Для Яндекса директива Host являются межсекционной, поэтому будет найдена роботом не зависимо от того, где она указана в файле robots.txt.
Важно: Директива Host в файле robots.txt может быть только одна.
В случае указания нескольких директив, использоваться будет первая.
Sitemap: http://mysite.ru/sitemaps.xml - Указываем путь к файлу sitemaps.xml

Для Яндекса и Google Sitemap - это межсекционная директива, но лучше написать ее в конце через пустую строку. Так она будет работать для всех роботов сразу.
User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: YandexImages Allow: /wp-content/uploads/
User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: YandexImages Allow: /wp-content/uploads/
Разрешает роботам Googlebot и YandexImages индексировать наши картинки.
User-agent: ia_archiver Disallow: /
User-agent: ia_archiver Disallow: /
Полностью запрещаем роботу веб архива индексацию нашего сайта.
Это предупредительная мера, которая защитит сайт от массового парсинга контента через веб архив.

Итак, мы рассмотрели стандартную часть файла robots.txt, которая подойдет для любого сайта на wordpress.
Но, нам нужно спрятать от роботов-индексаторов еще некоторые разделы сайта, в частности, те, которые создают дублированный контент - разного рода архивы.

Индивидуальные настройки:

Если на вашем сайте есть система древовидных комментариев, как на моем блоге, тогда нужно запретить индексацию таких адресов:

*?replytocom=

Их создает кнопка (ссылка) "Ответить на комментарий".
Страницы архивов на разных сайтах имеют различные адреса, в зависимости от того, как формируются URL на сайте, включены ли ЧПУ или нет.
Как определить адреса архивов вашего сайта?

Для этого нужно открыть архив любого месяца и посмотреть, как выглядит адрес страницы архива.

Он может выглядеть, например, так: http://sait.ru/archives/date/post-1.

В этом случае, выделяем общую для всех архивов по дате часть адреса:
/archives/date/.
Соответственно, в файле robots.txt указываем:
Disallow: /archives/date/*
Будьте внимательны - у вас архивы могут иметь другие адреса.
Например, архив года может иметь такой адрес: http://sait.ru/2012
Тогда закрывать нужно эту часть - /2012/
Напоминаю, что спецсимвол * означает любую последовательность символов, т.е. все, что находится в адресе далее.
Точно так же определяем адреса архивов тегов и архивов автора.
И закрываем их в robots.txt.
Disallow: /archives/tag/ Disallow: /archives/author/
Disallow: /archives/tag/ Disallow: /archives/author/
Рекомендую архивы тегов закрыть примерно на полгода-год, (если у вас молодой сайт) пока он стабильно пропишется в поисковой выдаче.
После этого срока архивы тегов стоит открыть для индексации, так как по наблюдениям, на страницы тегов по поисковым запросам приходит значительно больше посетителей, чем на страницы постов, к которым эти теги созданы.
Но, не добавляйте к постам много тегов, иначе вашему сайту будут грозить санкции за дублированный контент.
Один-два (редко три) тега к одному посту вполне достаточно.
Можно, также, закрыть индексацию всех главных страниц, кроме первой.

Обычно, их адреса выглядят так: http://sait.ru/page/2, http://sait.ru/page/3 и т. д., но лучше проверить.
Перейдите по ссылкам навигации внизу Главной страницы на вторую страницу и посмотрите, как выглядит ее адрес в адресной строке.
Закрываем эти страницы:
Disallow: /page/*
Иногда, на сайте требуется закрыть от индексации еще какие то страницы или папки. В этом случае, действуете аналогично - открываете в браузере нужную вам страницу и смотрите ее адрес. А дальше закрываете его в robots.txt.

Учтите, что если вы закрываете, например, папку "book", то автоматически закроются и все файлы, расположенные в этой папке.

Если закрыть страницу, в URL'е которой есть, например, "news" так: */news/,
то закроются и страницы /news/post-1 и /category/news/.

robots.txt полностью ↓

Открыть ↓

Справка:

Подробности составления robots.txt можно изучить на странице помощи Яндекса - http://help.yandex.ru/webmaster/?id=996567
Проверить правильность составления файла можно в webmaster.yandex - Настройка индексирования - Анализ robots.txt
В Google robots.txt можно проверить по этой ссылке:
https://www.google.com/webmasters/tools/crawl-access?hl=ru&siteUrl=http://site.ru/
Проверяемый сайт должен быть добавлен в панель веб-мастера.
P.S. Для Яндекса и Google правила составления robots.txt немного различаются.
Толкование правил составления robots.txt можно прочитать здесь - http://robotstxt.org.ru
К сожалению, проверить можно только синтаксис.
Правильно ли вы закрыли от индексации разделы сайта, покажет только время :).
Ну вот и все - файл robots.txt готов, осталось только загрузить его в корневой каталог нашего сайта.
Напоминаю, что корневой каталог это папка в которой находится файл config.php.
И последнее - все, сделанные вами изменения в robots.txt, будут заметны на сайте только спустя несколько месяцев.

В тему:

Однажды видела сайт на wordpress, на котором не было файла robots.txt.
Этот сайт некоторое время простоял пустым - т.е. с одной стандартной записью, которая по умолчанию присутствует в wordpress.
Представьте себе, какой шок испытал владелец сайта, когда обнаружил, что Яндекс проиндексировал 2 страницы с контентом и больше тысячи страниц самого движка 🙂
На этой веселой ноте заканчиваю.

Внутренняя оптимизация сайта:

1. Оптимизация кода шаблона.

2. Оптимизация контента.

3. Перелинковка.

4. Файл robots.txt.

5. Файл sitemap.xml.

6. Пинг.

Индексация сайтов комментариев 216 28.02.2012

Хотите получать сообщения о скидочных акциях,
новых постах и темах для wordpress?

Буду благодарна, если Вы поделитесь этим постом:

Присоединяйтесь ко мне в этих сервисах:

комментариев 216 Оставить комментарий

Дмитрий | 2013.06.28 в 11:46

День добрый, хочу обратиться к Вам за помощью. С моим сайтом возникла проблема, яндекс не под каким предлогом не хочет заходить на мой сайт, он его вообще не видит пишет что нет такого сайта. Что могло случиться ведь пару дней назад все было хорошо...
А потом резко начал падать в рейтинге, а теперь ни рейтинга не заходов с яндекса вообще нет!!! Если можете подскажите что не так могло пойти.

Ответить »
- Ксана | 2013.06.28 в 12:25
  
  Могло произойти все, что угодно.
  Для того, чтобы понять в чем причина, нужно провести анализ сайта. вы можете заказать аудит сайта здесь.
  
  Ответить »
Татьяна | 2013.07.16 в 10:00

Вообще то хоть немножко разобралась благодаря вам... Тяжело живется чайнкам... А то трафик упал конкретно, может от того, что у меня очень много звуковых файлов, у меня аудио уроки английского. Может папку аудио тоже закрыть?

Ответить »
Стас | 2013.08.08 в 10:23

Здравствуйте Ксана. Сможете может помочь? Вот мне одна школа на бесплатном курсе дала такой файл робота. Поисковики, поначалу индексировали, потом пишут, что робот запрещает???....
Спасибо...
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
Host: v-zerkale-zizni.ru
Sitemap: http://v-zerkale-zizni.ru/sitemap.xml.gz
Sitemap: http://v-zerkale-zizni.ru/sitemap.xml

Ответить »
- Ксана | 2013.08.10 в 10:32
  
  Попробуйте открыть для индексации категории, для этого удалите эту строку:
  Disallow: /category/*/*
  Больше ничего спорного я не вижу.
  
  Ответить »
Ирина | 2013.08.11 в 19:49

Файл robots.txt доступен для просмотра любому пользователю интернета, достаточно набрать в адресной строке сайт.ru/robots.txt и сможете посмотреть robots.txt у любого сайта. Смотрите как прописаны директивы у популярных блогов на СMS WordPress и учитесь. :))

Ответить »
Влад | 2013.08.14 в 16:32

Добрый день!
Подскажите, у меня все хорошо, или лучше переделать? Спасибо!
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Host: supermouce.ru
Sitemap: http://supermouce.ru/sitemap.xml.gz
Sitemap: http://supermouce.ru/sitemap.xml

Ответить »
Вячеслав | 2013.10.02 в 15:48

Привет Ксана

Правильно ли вы закрыли от индексации разделы сайта, покажет только время

проверка на http://www.siteliner.com/ показала, что мой робот никуда не годится
54% дубля, robots txt брал правда в другом месте
теперь воспользовался предложенным Вами,и сразу возникает вопрос
у меня категории разделены на под категории
то есть, есть категория Дома, и есть подкатегории 1 комнатные дома, 2х комнатные дома и т.д.
Если категории оставить открытыми, а подкатегории закрыть, в роботе нужно прописать так?
Disallow: /2x-komnatnye-doma/*
Disallow: /1-komnatnye-doma/*
или как то по другому ?
и еще...в роботе я прописал Disallow: /tag/*
при оптимизации темы, по предложенному Вами методу http://prodengiblog.ru/archives/2294
это не повредит ?
пока категории оставил закрытыми..от греха подальше.

Ответить »
- Ксана | 2013.10.02 в 17:45
  
  Disallow: /2x-komnatnye-doma/*
  Disallow: /1-komnatnye-doma/*
  
  Все зависит от того, как у вас на сайте формируются адреса записей.
  Если в адресе записи есть название подкатегории, тогда Disallow: /2x-komnatnye-doma/* закроет все записи в этой категории.
  
  в роботе я прописал Disallow: /tag/*
  
  Теги стоит закрывать, если вы добавляете к каждой записи много меток.
  Если добавляете одну метку, их можно не закрывать.
  
  Ответить »
Вячеслав | 2013.10.02 в 18:12

Значит если адрес записи выглядит так
http://мой сайт.ru/category/evpatoriya-doma/2x-komnatnye-doma
то категория дома закроется полностью ?
получается,что единственный выход,это избавляться от под категорий,которые создают дубли,и сваливать всю инфу в кучу.
а ведь для пользователей удобней когда все разложено по полочкам
или закрывать категории вовсе от индексации
Метки,как Вы и советовали я проставил по 1-2,ну и иногда реже три.

Ответить »
- Ксана | 2013.10.03 в 02:21
  
  Можно исправить URL'ы записей так, чтобы в них не присутствовали названия категорий.
  Но, это, если сайт новый.
  
  Ответить »
Вячеслав | 2013.10.03 в 11:25

Сайт новый,ему только месяц с небольшим
пока решил проблему удалением под категорий
меток проставил по одной,и открыл в роботе
также открыл и категории,интересно,а сейчас будет много дублей ?
как теперь мне поступить с не существующими ссылками оставшимися после удаления под категорий ?
подать запрос на удаление в гугл вебмастер,или как читал в интернетах
"само отвалится "?

Ответить »
- Ксана | 2013.10.03 в 21:02
  
  Само :).
  
  Ответить »
Синкевич | 2013.10.05 в 17:27

Здравствуйте.
вышел к вам из поисковика по ia_archiver
Есть у меня форум.
хотелось бы, чтобы главная страница и страницы разделов были в базе arhive.org
а страницы тем (их очень много), чтобы были удалены из их базы.
структура страниц такая:
эти страницы нужны в их базе
myforum.com
myforum.com/forum1.html
myforum.com/forum2.html
myforum.com/forum3.html
эти страницы не нужны:
myforum.com/topic1.html
myforum.com/topic2.html
myforum.com/topic3.html
...
myforum.com/topic99999.html
сделал так:
User-agent: ia_archiver
Disallow: /topic
вроде норм? как считаете?
для яндекса и гугла такое срабатывало.
чтобы не прописывать все страницы одной темы в роботсе
http://myforum.com/topic123s0.html
http://myforum.com/topic123s15.html
http://myforum.com/topic123s30.html
делал так
User-agent: *
Disallow: /topic123
и норм.

Ответить »
Бронислав | 2013.12.06 в 16:46

Здравствуйте, Ксана! Помогите пожалуйста разобраться, поставил предложенный в статье robots.txt а при проверке его здесь - http://webmaster.yandex.ua/robots.xml#results были выявлены такие ошибки:
1-15
User-agent: *
Disallow: /cgi-bin/
...
Host: content-bis.com.ru
17-17 Sitemap: http://content-bis.com.ru/sitemap.xml
Что не так, помогите разобраться?
Сам robots.txt
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-
Disallow: */trackback
Disallow: */comment-
Disallow: *?replytocom=
Disallow: */feed
Disallow: /?s=
Disallow: /xmlrpc.php
Disallow: /archives/date/
Disallow: /archives/tag/
Disallow: /archives/author/
Disallow: /page/
Allow: /wp-content/uploads/
Host: content-bis.com.ru
Sitemap: http://content-bis.com.ru/sitemap.xml
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: YandexImages
Allow: /wp-content/uploads/
User-agent: ia_archiver
Disallow: /

Ответить »
- Ксана | 2013.12.07 в 17:38
  
  Это не ошибки, это используемые роботом Яндекса строки :).
  
  Ответить »
Вячеслав | 2013.12.13 в 15:37

Ксана, я опять с вопросом
я решил продвигать категории, если я в роботе пропишу
Disallow: /category/*
то перекрою дубли (2, 3, 4 стр категорий)?

Ответить »
- Ксана | 2013.12.18 в 21:23
  
  Если вы так напишете, то закроете, вообще, все категории :).
  
  Ответить »
Надя | 2013.12.23 в 21:18

/Здравствуйте. Помогите пожалусто с робот текстом. Яндекс проиндексирвал только сам сайт а страницы не одной что тут не так я в этом совсем не понимаю
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins

Ответить »
- Ксана | 2013.12.24 в 21:33
  
  В посте есть пример файла robots.txt - воспользуйтесь им.
  
  Ответить »
  - Надя | 2013.12.24 в 22:55
    
    это тот что в самом начале???
    или то что открывается с помощью кода?
    
    Ответить »
    - Ксана | 2013.12.25 в 15:51
      
      Да.
      
      Ответить »
    - Ксана | 2013.12.25 в 15:52
      
      Тот, что открывается с помощью кода.
      
      Ответить »
Надя | 2013.12.24 в 23:22

а вы не подскажите как узнать находится ли наш сайт под фильтром у гугла и яндекса???

Ответить »
- Ксана | 2013.12.25 в 15:53
  
  Прочитайте этот пост и поймете.
  
  Ответить »
Николай | 2013.12.26 в 00:14

Здравствуйте, Ксана! У меня такая проблема. После того, как обнаружил на сайте большую заспамленность ссылками, переделал robots.txt. До этого страницы моментально индексировал Яндекс, а теперь перестал, хотя в Яндекс.Вебмастере стоит отметка "разрешен". Вот мой новый robots.txt:
User-agent: Mediapartners-Google
Disallow:
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /comment-subscriptions*
Disallow: /tag/
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: */*/feed
Disallow: /?feed=
Disallow: /*?*
Disallow: /?s=
Disallow: /20*/*
Disallow: /page/*
Disallow: /comment-page*
Disallow: /*/?replytocom=*
Disallow: */attachment/
Allow: /wp-content/uploads/
Sitemap: http://narodnaiamedicina.ru/sitemap.xml.gz
Sitemap: http://narodnaiamedicina.ru/sitemap.xml
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /comment-subscriptions*
Disallow: /tag/
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: */*/feed
Disallow: /?feed=
Disallow: /*?*
Disallow: /?s=
Disallow: /20*/*
Disallow: /page/*
Disallow: /comment-page*
Disallow: */attachment/
Allow: /wp-content/uploads/
Host: narodnaiamedicina.ru
Sitemap: http://narodnaiamedicina.ru/sitemap.xml.gz
Sitemap: http://narodnaiamedicina.ru/sitemap.xml

Ответить »
- Ксана | 2013.12.26 в 20:01
  
  А зачем вы посвятили так много строк фиду?
  Disallow: /feed/
  Disallow: */*/feed/*/
  Disallow: */feed
  Disallow: */*/feed
  Disallow: /?feed=
  Неужели ваш фид открывается по всем этим адресам :)?
  
  Ответить »
  - Николай | 2013.12.26 в 21:38
    
    Честно говоря, я не знаю о фидах ничего (где-то скопировал робот). Вы не могли бы мне прислать правильно оформленный файл robots.txt. Я подписался у вас на рассылку.
    
    Ответить »
    - Ксана | 2013.12.27 в 13:49
      
      К сожалению, нет. Индивидуальные заказы выполняются за оплату.
      
      Ответить »
      - Николай | 2013.12.27 в 20:35
        
        В таком случае подскажите, пожалуйста, как с помощью robots.txt запретить индексация ссылок с такими тегами:
        /#comment-1336
        /novosti/page/2
        #respond
      - Ксана | 2013.12.27 в 23:49
        
        Url'ы со знаком # закрывать от индексирования не нужно. Поисковые роботы и так не индексируют то, что идет после знака #.
        Этот url можно закрыть так:
        Disallow: /novosti/page/
Бронислав | 2013.12.26 в 16:01

Ксана, здравствуйте!
Помогите пожалуйста разобраться, я обнаружил, что у меня индексируется почти на половину больше материала чем есть на самом деле. Опубликовано 485, а индексируется 952. В яндекс вебмастер обнаружил, что в индексе много ссылок тегов и дублей страниц, что лучше предпринять?
Робот txt собирал по Вашим материалам, может, что-то где-то не понял и не так прописал. Искал вчера ответ, посоветовали - Disallow: /tag/ , а смотрю в txt есть похожая строка - /archives/tag/* - это не тоже самое?
Вот мой txt
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /wp-*
Disallow: */trackback
Disallow: */comments
Disallow: */comment-*
Disallow: */feed
Disallow: /?s=
Disallow: /xmlrpc.php
Disallow: /archives/date/*
Disallow: /blog/2012/
Disallow: /blog/2013/
Disallow: /archives/tag/*
Disallow: /archives/author/*
Disallow: /page/*
Host: content-bis.com.ru
Sitemap: http://content-bis.com.ru/sitemap.xml
Sitemap: http://content-bis.com.ru/sitemap.xml.gz
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: YandexImages
Allow: /wp-content/uploads/
User-agent: ia_archiver
Disallow: /
Спасибо!
С наступающим Вас Новым Годом, Ксана!

Ответить »
- Ксана | 2013.12.26 в 19:57
  
  Это одно и то же, но все зависит от того, какие адреса имеют теги на вашем сайте.
  Откройте страницу тега и посмотрите, а потом укажите адрес тега в robots.txt.
  
  Ответить »
Бронислав | 2013.12.26 в 21:11

Тоесть, мне закрывать так все теги в робот txt, а общего варианта нет? Вот например в статье "В Японии разработали искусственную эмаль зуба" есть тег "эмаль зуба", а ссылка выглядит вот так "http://content-bis.com.ru/tag/emal-zuba/", как тогда поступать?

Ответить »
- Ксана | 2013.12.27 в 13:51
  
  Не все теги :), а общая часть URL'а тега:
  Disallow: /tag/
  
  Ответить »
  - Бронислав | 2013.12.27 в 15:39
    
    Спасибо, Ксана! С наступающим Вас Новым Годом!
    
    Ответить »
Вера | 2014.01.05 в 08:52

Здравствуйте Ксана! У меня проблемы с индексированием сайта, то архивы индексируются, то не все страницы попадают в индексацию, некоторые страницы вообще выпали из яндекса. Подскажите пожалуйста, в чем ошибки. Вот мой robots.txt:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
Host: receptya.ru
Sitemap: http://receptya.ru/sitemap.xml.gz
Sitemap: http://receptya.ru/sitemap.xml

Ответить »
- Ксана | 2014.01.10 в 14:16
  
  Вера, в этом посте я подробно рассказала, как настроить файл robots.txt.
  Не нужно присылать мне простыни кода из вашего robots.txt - просто прочитайте статью еще раз и сделайте все, что там написано.
  
  Ответить »
Игорь | 2014.01.25 в 11:18

Очень помогла данная статья и ответы в комментариях!
Спасибо большое!
Поправил свой robots.txt
Буду ждать теперь индексации.

Ответить »
Виталий | 2014.03.24 в 21:36

Здравствуйте. Подскажите как сделать, чтоб индексировалась страница моего сайта с фотографиями (http://kovkavolgograd.ru/?page_id=30)?
С Ув.

Ответить »
- Людмила | 2014.03.25 в 21:22
  
  Купить на нее ссылки с хороших сайтов.
  
  Ответить »
Odessit | 2014.07.17 в 01:14 (подписан на отзывы)

Странно, стоит в роботс Disallow: /?s=, но если проверить в вебмастере яндекса, результат поиска, то пишет что разрешён...

Ответить »
Альбинас | 2014.10.15 в 01:03

Скажите, а вот такой вид мало?
Если мне робот выдает такой список это не достаточно?
Робот же по сайтмепу может лазить или нужно прописывать все строки, категории?
User-agent: *
Disallow: /wp-admin/
Sitemap: http://pret-a-portrait.ru/sitemap.xml

Ответить »
- Людмила | 2014.10.17 в 22:27
  
  Зависит от того, что именно вы хотите скрыть от индексации.
  В посте приведен robots.txt, который я рекомендую для сайта на wordpress.
  
  Ответить »
  - Альбинас | 2014.10.19 в 23:05
    
    Дело в том, что я ничего не собираюсь скрывать.
    Может быть хотя бы и потому, что не знаю, зачем что-то скрывать и для чего???
    Скажите просто, что мне должно или Вам говорит эта статистика?
    User-agent: *
    Disallow: /wp-admin/
    Sitemap: http://pret-a-portrait.ru/sitemap.xml
    Нужно ли что-то менять или добавлять?
    Правильно ли я понимаю, раз индексируется сайтмеп, то все страницы сайта проходят индексацию?
    
    Ответить »
    - Людмила | 2014.10.20 в 11:48
      
      Ваш код Disallow: /wp-admin/
      скрывает от индексации админку сайта и больше ничего.
      
      Ответить »
Игорь Черноморец | 2014.10.29 в 17:21 (подписан на отзывы)

Здравствуйте Ксана! Пришёл к вам из Гугла по запросу как исключить индексацию comment-subscriptions
В принципе я знал, что можно было закрыть это через фай robots.txt, но...в этом случае гугл будет по любому захватывать эти ссылки в сопли и соответственно появляются дубли! Думаю что надо закрыть их через meta robots noindex,nofollow в файле function.php
Как вы думаете, я прав или у вас другое мнение? Вы наверно читали две статьи от Александра Борисова по поводу дублей страниц?
Заранее спасибо

Ответить »
- Людмила | 2014.10.30 в 12:11
  
  Я думаю, что проблема с индексацией комментариев - это паранойя :).
  Проиндексированные комменты попадают в дополнительный индекс, это значит, что Google прекрасно понимает, что он индексирует и ценность этого.
  Я не заморачиваюсь с индексацией комментариев и вам не советую.
  
  Ответить »
  - Игорь Черноморец | 2014.10.30 в 12:32 (подписан на отзывы)
    
    Спасибо Ксана, но я не имел ввиду индексацию комментариев, а имел ввиду ссылки с подписками на уведомления комментариев!
    Просто, в аналитике от гугла, мне показаны все подписки моих комментаторов обозначены как ошибки 404. Не знаю почему гугл взял в индекс сами подписки - comment-subscriptions
    
    Ответить »
    - Людмила | 2014.10.30 в 22:13
      
      Никогда на это не обращала внимание.
      
      Ответить »
Александр | 2014.12.31 в 15:04 (подписан на отзывы)

Подскажите пожалуйста, а в чем разница между ?
Disallow: */comment-
и
Disallow: */comments

Ответить »
- Людмила | 2015.01.01 в 15:39
  
  Вы можете сами ответить на этот вопрос.
  Представьте, что в адресе вашего сайта есть /comment-
  и /comments и вы закрываете от индексации страницы, которые содержат такие адреса.
  
  Ответить »
Сергей К. | 2015.04.17 в 17:06

Здравствуйте!
Спасибо за полезную статью. Теперь знаю, что для моего сайта сделали неправильный файл robots.txt . Поэтому просьба разъяснить следующее:
1. На сайте с WordPress с ЧПУ мне нужно закрыть от индексации наряду со служебными разделами WP также результаты поиска по сайту и дубли. Если написать в robots.txt эти две директивы:
Disallow: /?s=
Disallow: /*?*
то не будут ли исключены из индекса нужные мне УРЛы, в адресах которых присутствует буква «s» ?
2. Мой сайт создан не для блога, на нем нет регистрации для посетителей, соответственно нет логин / пароль для входа, нет возможности для комментариев и т.д. В таком случае нужны ли вообще в robots.txt эти директивы во всех вариациях:
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /trackback
Disallow: /trackback/
Disallow: */trackback
Disallow: */trackback/
Disallow: */*/trackback
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /?feed=
Disallow: /comments/
Disallow: */comments/
Если нужны, то какие именно?
Заранее спасибо.

Ответить »
- Людмила | 2015.04.18 в 00:49
  
  1. Если в адресах есть буква S после знака вопроса, то будут. Остальные - нет.
  2. Введите в адресную строку эти ссылки и проверьте, есть ли они на вашем сайте.
  
  Ответить »
  - Сергей К. | 2015.04.18 в 12:39
    
    Большое спасибо, Людмила, за быстрый и понятный ответ. Очень помогли мне. Всего Вам доброго.
    Сергей
    
    Ответить »
Сергей К. | 2015.04.26 в 16:06

Здравствуйте, Людмила!
Ещё один вопрос, на который не могу найти ответ. Был бы благодарен за Ваше мнение. Напомню, что мой сайт - не блог, а сайт небольшого агентства недвижимости.
Сайт на WordPress, подкорректировал robots согласно рекомендациям, а также примерам на различных сайтах. Наряду с прочими директивами имеются и вот эти:
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Проверяю мои страницы в webmaster Гугла в разделе "Посмотреть как Googlebot". При таком robors на страницах отображаются только тексты, то есть сайт выглядит как полу-фабрикат. А фотографии, дизайн, элементы оформления, таблицы и т.д. не видны. Указываетя, что блокировка этих элементов происходит из-за директив:
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
В этой связи вопрос. Так и должно быть, что сайт выглядит для поисковиков усеченным? Или всё же он будет понижен в результатах выдачи поисковиков из-за того, что он выглядит в их глазах ущербным?
Сергей К.

Ответить »
Сергей К. | 2015.04.26 в 16:09

Что нужно сделать в такой ситуации?

Ответить »
dimka | 2015.05.02 в 13:03

Здравствуйте!
Подскажите пожалуйста, а то я никак разобраться не могу. Зачем закрывать от индексации папку wp-content. Там ведь расположена тема, с которой я работаю, соответственно и файлы functions.php, loop-single.php, header.php и т.д.
И почему многие пишут /wp-content/themes. Правильно же так /wp-content/themes/ (с чертой на конце)

Ответить »
- Людмила | 2015.05.05 в 18:52
  
  Да, правильно именно так, но робот-индексатор понимает и без слеша.
  
  Ответить »
Виталий | 2015.07.19 в 06:55

User-agent: *
Allow: /$
Allow: /*?page
Allow: /*?ref=
Allow: /stat/
Disallow: /*?
Disallow: /index/1
Disallow: /index/3
Disallow: /register
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /index/sub/
Disallow: /panel/
Disallow: /admin/
Disallow: /informer/
Disallow: /secure/
Disallow: /poll/
Disallow: /search/
Disallow: /abnl/
Disallow: /*_escaped_fragment_=
Disallow: /*-*-*-*-987$
Disallow: /shop/checkout/
Disallow: /shop/user/
Disallow: /*0-*-0-17$
Host: www.мой сайт
Sitemap: http://мой сайт/sitemap.xml
Скажите пожалуйста. Стоит ли мне закрыть первые 4 пункта? или оставить так Allow?

Ответить »
Марина | 2016.05.17 в 13:00

Здравствуйте.
У наст тема Infobiz премиум.
1) В описании указано, что в теме уже закрыт весь дублированный контент. Означает ли это что: уже запрещены древовидные комментарии, архивы (в том числе тегов и автора), /page/*?
2) Правильно ли мы пониманием, что следует запретить индексировать папку со скриптами, плагинами, веб архив, всех папок и файлов движка, начинающихся с wp- , трекбеков и фида, результаты поиска?
3) Каким роботам Вы рекомендуете разрешить индексацию: Яндекс, Mail.Ru, Rambler, Google, Google Картинки, Google Мобильный, Aport, MSN Поиск, MSN Картинки, Yahoo.
4) Какую задержку Вы рекомендуете установить для индексации роботами: от 5 до 120 сек.
Заранее спасибо за ответы.

Ответить »
- Людмила | 2016.05.17 в 13:31
  
  1) В описании указано, что в теме уже закрыт весь дублированный контент. Означает ли это что: уже запрещены древовидные комментарии, архивы (в том числе тегов и автора), /page/*?
  
  В теме закрыто то, что возможно закрыть в теме - ссылки на страницы с дублированным контентом.
  Но, подумайте сами, как можно в теме закрыть от индексации то, что должно находиться в robots.txt?
  
  2) Правильно ли мы пониманием, что следует запретить индексировать папку со скриптами, плагинами, веб архив, всех папок и файлов движка, начинающихся с wp- , трекбеков и фида, результаты поиска?
  
  Да, правильно.
  
  3) Каким роботам Вы рекомендуете разрешить индексацию: Яндекс, Mail.Ru, Rambler, Google, Google Картинки, Google Мобильный, Aport, MSN Поиск, MSN Картинки, Yahoo.
  
  Роботам тех ПС, которые вы хотите, чтобы индексировали сайт.
  
  4) Какую задержку Вы рекомендуете установить для индексации роботами: от 5 до 120 сек.
  
  30"
  
  Ответить »