Как правильно составить robots.txt для сайта на wordpress

Автор: Ксана
(Людмила Лунева)
Веб-дизайнер и разработчик сайтов на wordpress

Начало статьи читайте здесь »
Файл robots.txt - это служебный файл, в котором можно указать роботам ПС (поисковых систем), какие разделы сайта индексировать, а какие нет. Сделать это можно с помощью специальных директив. Директивы можно написать для всех роботов одновременно или отдельно для робота каждой ПС.
Разделы, закрытые от индексации, не попадут в индекс поисковых систем.
Правильный robots.txt для сайта на wordpress
Что такое Индекс?
Это база данных поисковой системы, в которой она хранит набор встречающихся на интернет-страницах слов и словосочетаний. Эта информация соотнесена с адресами тех веб-страниц, на которых она встречаются, и постоянно пополняется новой информацией, собираемой роботом-пауком поисковой системы.
Для того, чтобы сайт появлялся в выдаче поисковой системы по определенным запросам, он должен быть занесен в индекс этой поисковой системы.
Вообщем, robots.txt – это очень полезный и нужный любому сайту файл.

Общая для всех сайтов часть файла:

Итак, создаем текстовый документ с названием robots.txt и пишем в него следующее:

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-
Disallow: /*trackback
Disallow: /feed
Disallow: /?s=
Disallow: /xmlrpc.php
Allow: /wp-content/uploads/
Host: www.yourdomain.ru
Sitemap: http://yourdomain.ru/sitemap.xml
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: YandexImages
Allow: /wp-content/uploads/
User-agent: ia_archiver
Disallow: /

Пояснения:

User-agent: * - Директива всем роботам

Если нужно, чтобы эти правила работали только для одного, конкретного робота, то вместо * указываем его имя (User-agent: Yandex, User-agent: Googlebot и т.д.).
Disallow: /cgi-bin/
Disallow: /cgi-bin/
Здесь мы запрещаем индексировать папку со скриптами.
Disallow: /wp- - Запрещает индексацию всех папок и файлов движка, начинающихся с wp- (т.е. папок /wp-admin/, /wp-includes/, /wp-content/ и всех файлов, расположенных в корневой папке).
Disallow: /*trackback Disallow: /*comment- Disallow: /feed
Disallow: /*trackback Disallow: /*comment- Disallow: /feed
Запрещаем индексацию комментариев, трекбеков и фида.
Спецсимвол * означает любую (в том числе пустую) последовательность символов, т.е. все, что находится в адресе до указанной части или после нее.
Disallow: /?s= - Запрещаем индексацию результатов поиска.
Allow: /wp-content/uploads/ - Разрешение индексировать папку uploads (а значит и расположенные в ней картинки).

Правило Яндекса для robots.txt гласит:

"Директивы Allow и Disallow из соответствующего User-agent блока сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для данной страницы сайта подходит несколько директив, то выбирается последняя в порядке появления в сортированном списке."
Получается, что директиву Аllow можно указать в любом месте.
Яндекс самостоятельно сортирует список директив и располагает их по длине префикса.
Google понимает Allow и вверху и внизу секции.
Касательно директивы Allow: /wp-content/uploads/ - поскольку, далее мы разрешаем индексировать роботам-индексаторам картинок папку с картинками, я не уверена, что эта директива нужна.
Но, наверное, лишней не будет. Так что, это - на ваше усмотрение.
Host: www.glavnoye-zerkalo.ru - Директива Host понимается только Яндексом и не понимается Гуглом.

В ней указывается главное зеркало сайта, в случае, если у вашего сайта есть зеркала. В поиске будет участвовать только главное зеркало.

Директиву Host лучше написать сразу после директив Disallow (для тех роботов, которые не полностью следуют стандарту при обработке robots.txt).
Для Яндекса директива Host являются межсекционной, поэтому будет найдена роботом не зависимо от того, где она указана в файле robots.txt.
Важно: Директива Host в файле robots.txt может быть только одна.
В случае указания нескольких директив, использоваться будет первая.
Sitemap: http://mysite.ru/sitemaps.xml - Указываем путь к файлу sitemaps.xml

Для Яндекса и Google Sitemap - это межсекционная директива, но лучше написать ее в конце через пустую строку. Так она будет работать для всех роботов сразу.
User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: YandexImages Allow: /wp-content/uploads/
User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: YandexImages Allow: /wp-content/uploads/
Разрешает роботам Googlebot и YandexImages индексировать наши картинки.
User-agent: ia_archiver Disallow: /
User-agent: ia_archiver Disallow: /
Полностью запрещаем роботу веб архива индексацию нашего сайта.
Это предупредительная мера, которая защитит сайт от массового парсинга контента через веб архив.

Итак, мы рассмотрели стандартную часть файла robots.txt, которая подойдет для любого сайта на wordpress.
Но, нам нужно спрятать от роботов-индексаторов еще некоторые разделы сайта, в частности, те, которые создают дублированный контент - разного рода архивы.

Индивидуальные настройки:

Если на вашем сайте есть система древовидных комментариев, как на моем блоге, тогда нужно запретить индексацию таких адресов:

*?replytocom=

Их создает кнопка (ссылка) "Ответить на комментарий".
Страницы архивов на разных сайтах имеют различные адреса, в зависимости от того, как формируются URL на сайте, включены ли ЧПУ или нет.
Как определить адреса архивов вашего сайта?

Для этого нужно открыть архив любого месяца и посмотреть, как выглядит адрес страницы архива.

Он может выглядеть, например, так: http://sait.ru/archives/date/post-1.

В этом случае, выделяем общую для всех архивов по дате часть адреса:
/archives/date/.
Соответственно, в файле robots.txt указываем:
Disallow: /archives/date/*
Будьте внимательны - у вас архивы могут иметь другие адреса.
Например, архив года может иметь такой адрес: http://sait.ru/2012
Тогда закрывать нужно эту часть - /2012/
Напоминаю, что спецсимвол * означает любую последовательность символов, т.е. все, что находится в адресе далее.
Точно так же определяем адреса архивов тегов и архивов автора.
И закрываем их в robots.txt.
Disallow: /archives/tag/ Disallow: /archives/author/
Disallow: /archives/tag/ Disallow: /archives/author/
Рекомендую архивы тегов закрыть примерно на полгода-год, (если у вас молодой сайт) пока он стабильно пропишется в поисковой выдаче.
После этого срока архивы тегов стоит открыть для индексации, так как по наблюдениям, на страницы тегов по поисковым запросам приходит значительно больше посетителей, чем на страницы постов, к которым эти теги созданы.
Но, не добавляйте к постам много тегов, иначе вашему сайту будут грозить санкции за дублированный контент.
Один-два (редко три) тега к одному посту вполне достаточно.
Можно, также, закрыть индексацию всех главных страниц, кроме первой.

Обычно, их адреса выглядят так: http://sait.ru/page/2, http://sait.ru/page/3 и т. д., но лучше проверить.
Перейдите по ссылкам навигации внизу Главной страницы на вторую страницу и посмотрите, как выглядит ее адрес в адресной строке.
Закрываем эти страницы:
Disallow: /page/*
Иногда, на сайте требуется закрыть от индексации еще какие то страницы или папки. В этом случае, действуете аналогично - открываете в браузере нужную вам страницу и смотрите ее адрес. А дальше закрываете его в robots.txt.

Учтите, что если вы закрываете, например, папку "book", то автоматически закроются и все файлы, расположенные в этой папке.

Если закрыть страницу, в URL'е которой есть, например, "news" так: */news/,
то закроются и страницы /news/post-1 и /category/news/.

robots.txt полностью ↓

Открыть ↓

Справка:

Подробности составления robots.txt можно изучить на странице помощи Яндекса - http://help.yandex.ru/webmaster/?id=996567
Проверить правильность составления файла можно в webmaster.yandex - Настройка индексирования - Анализ robots.txt
В Google robots.txt можно проверить по этой ссылке:
https://www.google.com/webmasters/tools/crawl-access?hl=ru&siteUrl=http://site.ru/
Проверяемый сайт должен быть добавлен в панель веб-мастера.
P.S. Для Яндекса и Google правила составления robots.txt немного различаются.
Толкование правил составления robots.txt можно прочитать здесь - http://robotstxt.org.ru
К сожалению, проверить можно только синтаксис.
Правильно ли вы закрыли от индексации разделы сайта, покажет только время :).
Ну вот и все - файл robots.txt готов, осталось только загрузить его в корневой каталог нашего сайта.
Напоминаю, что корневой каталог это папка в которой находится файл config.php.
И последнее - все, сделанные вами изменения в robots.txt, будут заметны на сайте только спустя несколько месяцев.

В тему:

Однажды видела сайт на wordpress, на котором не было файла robots.txt.
Этот сайт некоторое время простоял пустым - т.е. с одной стандартной записью, которая по умолчанию присутствует в wordpress.
Представьте себе, какой шок испытал владелец сайта, когда обнаружил, что Яндекс проиндексировал 2 страницы с контентом и больше тысячи страниц самого движка 🙂
На этой веселой ноте заканчиваю.

Внутренняя оптимизация сайта:

1. Оптимизация кода шаблона.

2. Оптимизация контента.

3. Перелинковка.

4. Файл robots.txt.

5. Файл sitemap.xml.

6. Пинг.

Индексация сайтов комментариев 216 28.02.2012

Хотите получать сообщения о скидочных акциях,
новых постах и темах для wordpress?

Буду благодарна, если Вы поделитесь этим постом:

Присоединяйтесь ко мне в этих сервисах:

комментариев 216 Оставить комментарий

Игорь | 2012.02.28 в 16:47

Спасибо, ещё раз проверил свой robots.txt.

Ответить »
ros | 2012.02.28 в 16:57

А почему надо закрывать комменты? Пусть индексируются. Это даст профит по супер нч запросам.

Ответить »
- Ksana | 2012.02.28 в 18:53
  
  Потому что ссылка на страницу отдельного комментария - это суть ссылка на запись, к которой этот комментарий оставлен. Только ссылки на запись и на комментарий к этой записи сильно отличаются.
  А поскольку комментариев к каждой записи может быть очень много, то получается дублированный контент в громадном количестве.
  
  Ответить »
Юлия | 2012.02.28 в 17:46

Ксана, спасибо! Первый раз вижу такое подробное разъяснение, как правильно составить robot.tx, надо будет произвести "ревизию" своего файла:)

Ответить »
Aleks | 2012.02.28 в 18:47

Ксана, спасибо за robots.txt, сейчас сверяю со своим.
Запрещаю архивы и page и проверяю через webmaster.yandex.ua/site/robots.xml пишет напротив:
Disallow:
/archives/author/ разрешен
Disallow:
/archives/date/ разрешен
Disallow:
/page/ разрешен
Значит, архивы и страницы разрешены?

Ответить »
- Ksana | 2012.02.28 в 19:00
  
  Вряд ли.
  Сервис Вебмастер поисковых систем проверяет только синтаксис, т.е. правильное употребление директив.
  А не то, какую страницу вы разрешили, а какую запретили.
  
  Ответить »
  - Aleks | 2012.02.28 в 19:18
    
    Спасибо за ответ, пошел корректировать.
    
    Ответить »
Faddey | 2012.02.28 в 21:19

Эх. Полез проверять, так нашел ошибку в имени домена. Будьте оч внимательны!
Нельзя ли как-нить ускорить посткорректировочный процесс?

Ответить »
- Ksana | 2012.02.29 в 03:44
  
  Это вы о чем?
  
  Ответить »
  - Faddey | 2012.03.01 в 17:11
    
    Нашел свою ошибку. Не у вас, нет.
    Очень не хочется долго ждать результатов корректировки 🙂
    
    Ответить »
ros | 2012.02.28 в 23:37

У меня получился вот такой робот.тхт

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-login.php
Disallow: /trackback
Disallow: /feed
Disallow: */trackback
Disallow: */feed
Disallow: /comment-page/*
Disallow: /xmlrpc.php
Disallow: /author
Disallow: /tag
Disallow: /page
Disallow: /archives
Disallow: */comment*
Disallow: */feed
Disallow: /iframes
Disallow: /privacy-policy.html
Disallow: /web-site-agreement.html
Disallow: /category/*/*
Disallow: */trackback*
Disallow: /*?*
Disallow: *.php
Disallow: /*.js
Disallow: /*.inc
Disallow: /*.css
Disallow: /*.gz
Disallow: /*.wmv
Disallow: /*.cgi
Disallow: /*.zip
Allow: /wp-content/uploads/

User-agent: Yandex
Host: ssss.com
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-login.php
Disallow: /trackback
Disallow: /feed
Disallow: */trackback
Disallow: */feed
Disallow: /comment-page/*
Disallow: /xmlrpc.php
Disallow: /author
Disallow: /tag
Disallow: /page
Disallow: /category/*
Disallow: /archives
Disallow: /comments
Disallow: /*feed
Disallow: */trackback
Disallow: */comment*
Disallow:/iframes
Disallow: /privacy-policy.html
Disallow: /web-site-agreement.html
Disallow: /category/*/*
Disallow: */trackback*
Disallow: /*?*
Disallow: *.php
Disallow: /*.js
Disallow: /*.inc
Disallow: /*.css
Disallow: /*.gz
Disallow: /*.wmv
Disallow: /*.cgi
Disallow: /*.zip
Allow: /wp-content/uploads/

Sitemap: http://ssss.com/sitemap.xml

Ответить »
- Ksana | 2012.02.29 в 03:45
  
  User-agent: *
  
  Типа, это всех роботов.
  
  User-agent: Yandex
  
  А это для особо одаренных, которые с первого раза не понимают :).
  Какой смысл писать одно и то же дважды?
  
  Ответить »
sawka | 2012.02.29 в 01:58

Давно взял ваш файл за основу, несколько доработав - спасибо.

Ответить »
Катерина | 2012.02.29 в 02:16

Спасибо, полезная информация, проверила на нескольких блогах своих.
Подождем пару месяцев 🙂

Ответить »
Татьяна | 2012.02.29 в 10:55

Спасибо Ксана!
Добавила некоторые строки в роботс.
Будем ждать...

Ответить »
AndreyK | 2012.02.29 в 13:11

А я на своем сайте для исключения дублей запретил к индексации и архивы по годам:
Disallow: /2011/
Disallow: /2010/
Disallow: /2012/
Правда года ежегодно приходится ручками дописывать

Ответить »
- Ksana | 2012.02.29 в 15:52
  
  Спасибо, что напомнили.
  Действительно, архивы по годам тоже нужно закрыть.
  
  Ответить »
  - Александр | 2012.03.22 в 22:39
    
    Спасибо за отличную статью.
    А я индексацию архивов по годам так закрываю.
    Disallow: /201*
    Чтобы все года столбиком не писать.
    Яндекс понимает (проверял в Яндекс.Вебмастер).
    
    Ответить »
    - Ksana | 2012.03.23 в 02:10
      
      Хорошая идея!
      Спасибо, пригодится.
      
      Ответить »
Ольга | 2012.02.29 в 13:55

Ксана, здравствуйте! Установила, предложенный Вами вариант файла Robots.txt , а яндекс вебмастер мне выдал ошибку " 32: Google Image: Обнаружена неизвестная директива." Что я не так сделала?

Ответить »
- Ksana | 2012.02.29 в 15:51
  
  Это для Яндекса неизвестная директива, а для робота google очень даже известная :).
  Хотя, это просто пояснение для владельца сайта (не для Яндекса), так что его можно удалить.
  
  Ответить »
Николай | 2012.03.01 в 04:53

Ксана я еще чайник. подскажите пожалуйста что у меня не так в файле роботекст, вроде как надо, но с индексацией Яндекса ужас творится.

User-agent: *
Crawl-delay: 4
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed

User-agent: Yandex
Crawl-delay: 4
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Host: http://teotihuacan.ru

Sitemap: http://teotihuacan.ru/sitemap.xml.gz
Sitemap: http://teotihuacan.ru/sitemap.xml
Что же я не так сделал? С уважением Николай.

Ответить »
- Ksana | 2012.03.01 в 05:04
  
  В принципе, грубых ошибок нет, но я бы сократила файл и закрыла бы все архивы.
  Кроме того, вызывает сомнение целесообразность следующих конструкций:
  Disallow: */*/trackback
  Disallow: */*/feed/*/
  Что касается индексации, то ваш сайт по-видимому, под фильтром у Яндекса. Чтобы вывести его из под фильтра, нужно найти причину и устранить.
  Этой причиной может быть дублированный контент (еще одна причина закрыть архивы в robots.txt).
  Рекомендую прочитать этот пост и сделать все, в нем написанное.
  Вот еще одна подсказка - http://solomono.ru/?search=http%3A%2F%2Fteotihuacan.ru. Это анализ вашего сайта.
  
  Ответить »
  - Николай | 2012.03.01 в 13:03
    
    Ксаночка спасибо вам за помощь огромное, но простите мою навязчивость, уже всего боюсь, а вот так правильно?
    User-agent: *
    Crawl-delay: 4
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */feed
    Yandex Image:
    User-agent: Yandexbot-Image
    Allow: /*
    Internet Archiver Wayback Machine
    User-agent: ia_archiver
    Disallow: /
    Sitemap: http://teotihuacan.ru/sitemap.xml.gz
    Sitemap: http://teotihuacan.ru/sitemap.xml
    Сократил и убрал
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Архивы запретил, правильно?
    Смущает Sitemap, почему то его 2 штуки. Еще раз извините, с меня - на кофе! С уважением.
    
    Ответить »
    - Ksana | 2012.03.02 в 02:09
      
      Архивы вы не запретили.
      Добавьте в ваш robots.txt следующее:
      Disallow: /2012/
      Disallow: /2013/
      Disallow: /2014/
      Disallow: /page/*
      Disallow: /tag/*
      А это тоже добавьте, только предварительно проверьте, какие адреса у вас имеют архивы месяца и архивы автора:
      Disallow: /archives/date/*
      Disallow: /archive/author/*
      И скорректируйте эти адреса в robots.txt.
      Кроме этого:
      - поставьте в теги noindex все посторонние ссылки (ссылки на другие сайты). В том числе, счетчики, форму smartresponderа и пр.
      - удалите баннерную рекламу с сайта;
      - если продаете ссылки, перестаньте продавать.
      После этого напишите в техподдержку Яндекса письмо такого плана:
      
      Моего сайта нет в поиске Яндекса.
      Я внимательно прочитал всю документацию Яндекса по индексированию (кстати, если вы этого еще не сделали, то прочитайте обязательно и сделайте все, что там написано).
      И исправил все ошибки на сайте.
      Пожалуйста проверьте мой сайт.
      С уважением, ....
      
      Напишите из интефейса Яндекс-вебмастера, со страницы вашего сайта.
      И пишите каждые две недели, пока кто нибудь из техподдержки не проверит ваш сайт вручную.
      Т.е. исправить все ошибки и писать Платону - это единственный способ вернуть сайт в выдачу.
      
      Ответить »
      - Николай | 2012.03.02 в 16:20
        
        Ксана, авторизируйте меня по WebMoney, на кофе отправил.
        И чтобы вас не отрывать объяснениями, скажите пожалуйста сколько будет стоить корректировка файла robots.txt.
        Много не понимаю, много сил, времени в сайт вкладываю (usb ужас модем - другой возможности пока нет), не хочу из-за своей ошибки все испортить. С уважением Николай.
      - Ksana | 2012.03.03 в 17:17
        
        Да я вам все уже в комментариях рассказала.
        Не нужно ничего платить.
Gotvald | 2012.03.02 в 02:31

Если добавляете robots.txt на давно существующий сайт - будьте готовы к неожиданностям.
Падение в выдаче Яндекса и Google на пару месяцев вполне нормально.
И поиск неправильных строк в robots.txt вполне может оказаться безуспешным, просто иногда так бывает.
robots.txt должен быть добавлен на сайт как можно скорее, как ни крути, но рано или поздно вопрос добавления все равно встанет, так лучше позаботиться об этом заранее, чтоб потом локти не кусать.

Ответить »
Alexandr | 2012.03.03 в 22:35

установил WP в отдельный каталог
адрес сайта: example.com
адрес wordpress: example.com/ololo
как правильно прописать robots.txt ?
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
или так:
Disallow: /ololo/wp-admin
Disallow: /ololo/wp-includes
Disallow: /ololo/wp-content/plugins

Ответить »
- Ksana | 2012.03.04 в 15:54
  
  Теоретически, второй вариант более логичен.
  
  Ответить »
Gotvald | 2012.03.04 в 00:13

Disallow: /wp-*
Этой конструкцией блокируется анализ корневых файлов?
Стоит ли заниматься крохоборством и добавлять сюда favicon.ico да пару тройку не подпадающих под правило?

Ответить »
- Ksana | 2012.03.04 в 15:53
  
  Это можете решить только вы сами.
  
  Ответить »
Владимир | 2012.03.06 в 14:01

Здравствуйте, а почему при открывания моего сайта ( http://liveudm.ru/) количество запросов 800 и более, я там в подвале сделал чтобы видно было.

Ответить »
- Ksana | 2012.03.06 в 14:08
  
  Потому что ваш сайт не оптимизирован.
  Скачайте мою книгу Почему тормозит сайт и что с этим делать или Как ускорить работу сайта и сделайте все, что там написано.
  Это должно помочь.
  
  Ответить »
  - Владимир | 2012.03.06 в 14:46
    
    почитал информацию на вашем сайте про валидность, у меня на сайте 75 ошибок из них 66 опасные, про надо код исправлять?
    
    Ответить »
    - Ksana | 2012.03.07 в 01:03
      
      Прочитайте, пожалуйста о различных типах ошибок.
      Разумеется, все ошибки, которые можно исправить - нужно исправить.
      
      Ответить »
Владимир | 2012.03.06 в 14:53

ваш сайт загрузил в validator.w3.org сообщение что есть 89 ошибок из них 8 опасных ??? но ваш сайт работает быстро )))

Ответить »
- Ksana | 2012.03.07 в 01:06
  
  Не все ошибки можно исправить, и не все ошибки нужно исправлять :).
  К тому же, валидность кода меньше всего влияет на скорость загрузки страниц сайта.
  
  Ответить »
Владимир | 2012.03.07 в 08:15

а вы можете так сразу сказать какие ошибки надо мне исправить? я бы был очень вам благодарен

Ответить »
- Ksana | 2012.03.07 в 15:00
  
  Увы, нет.
  В комментариях я могу ответить только на вопросы, которые не нужно изучать дополнительно.
  На вопросы требующие изучения, я отвечаю только при личном консультировании.
  Но могу дать совет: Исправьте все, которые сможете :).
  
  Ответить »
Сергей | 2012.03.08 в 16:29

Очередная обалденная статья.
Не помню спрашивал у вас или нет - Зачем вы всю статью на главной открываете, а не анонсом? Что это дает?

Ответить »
- Ksana | 2012.03.08 в 19:23
  
  Удобство чтения нового поста. Больше ничего.
  
  Ответить »
Влад | 2012.03.17 в 23:09

Здравствуйте, Ксана! Похоже, в Вашей статье есть небольшая неточность. Вот цитата из правил Яндекса:
"Директивы Allow и Disallow из соответствующего User-agent блока сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для данной страницы сайта подходит несколько директив, то выбирается последняя в порядке появления в СОРТИРОВАННОМ списке. Таким образом порядок следования директив в файле robots.txt не влияет на использование их роботом."
И еще вопрос: разве директива Disallow: /wp-* не закроет также доступ и ко всем папкам, имя которых начинается в wp- ? И, кстати, насколько нужен здесь знак "*" ?

Ответить »
- Ksana | 2012.03.20 в 17:05
  
  Вот цитата из правил Яндекса
  
  Яндекс меняет свои правила чаще, чем я текст уже написанной статьи :).
  Но, вы правы в том, что теперь правило выглядит именно так, как вы его процитировали.
  Переписала статью под новые правила.
  
  И, кстати, насколько нужен здесь знак "*" ?
  
  По-большому счету, не нужен, но лишним тоже не будет.
  Можно использовать знак *, а можно его не использовать. Суть одно и то же.
  
  Ответить »
Влад | 2012.03.17 в 23:16

И еще забыл спросить: кто такие трекбеки и фиды и зачем их надо закрывать от индексации?

Ответить »
- Ksana | 2012.03.18 в 00:38
  
  Кто может объяснить товарищу, что такое фид и трекбек?
  Не хочется посылать в google :).
  
  Ответить »
  - Влад | 2012.03.18 в 06:04
    
    Спасибо.
    
    Ответить »
олег | 2012.03.18 в 21:55

Получил на мыло вашу ссылку Оксана, как нельзя кстати. Химичить в файле самому было стрёмно. Но думаю с вашей помощью разберусь непримено. Спасибо.

Ответить »
Игорь | 2012.03.19 в 03:50

Ксана, здравия желаю!
А почему Яндекс при проверке робота ругается вот так:
20: Google Image: Обнаружена неизвестная директива

Ответить »
- Ksana | 2012.03.19 в 07:24
  
  Это он на эту строчку ругается: Google Image:
  Это просто пояснение для владельца сайта (не для Яндекса), так что его можно удалить.
  
  Ответить »
  - Игорь | 2012.03.19 в 12:37
    
    Ксана, я понял, спасибо!
    Тогда пусть остаётся.)))
    Позвольте воспользоваться вашей женской отзывчивостью наглым образом. (я старый солдат, НО всё ещё холодный Чайник))) Посмотрите, пжста, на правильность создания файла
    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /wp-
    Disallow: */trackback
    Disallow: */comment-
    Disallow: */feed
    Disallow: /?s=
    Disallow: /xmlrpc.php
    Disallow: /2011/
    Disallow: /2012/
    Disallow: /2013/
    Disallow: /2014/
    Disallow: /page/
    Allow: /wp-content/uploads/
    Host: www.myrubicon.ru
    Sitemap: http://www.myrubicon.ru/sitemap.xml
    User-agent: Googlebot-Image
    Allow: /wp-content/uploads/
    User-agent: YandexImages
    Allow: /wp-content/uploads/
    User-agent: ia_archiver
    Disallow: /
    
    Ответить »
    - Ksana | 2012.03.20 в 17:11
      
      Так будет правильно.
      Чтобы не повторять, отредактировала ваш код.
      
      Ответить »
      - Игорь | 2012.03.20 в 18:37
        
        Ксана, спасибо!
        Я вас уже люблю, как...как...как боевого товарища, скупо и по-солдатски крепко))))
Татьяна Бурмистренко | 2012.03.23 в 04:46

Ксана, здравствуйте!
Мой сайт под АГС . Переделала файл robots.txt.
Теперь он выглядит так:
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
Host: repetitor-problem.net
Sitemap: http://repetitor-problem.net/sitemap.xml.gz
Sitemap: http://repetitor-problem.net/sitemap.xml
Но в Вебмастер. Яндекс п ри проверке выдает :
1: User-agent: *
Обнаружена неизвестная директива
2: Disallow: /wp-login.php
Перед правилом нет директивы User-agent
Что это значит? Какие внести исправления?
БЛАГОДАРЮ заранее.

Ответить »
- Ksana | 2012.03.23 в 07:20
  
  Disallow: /category/*/*
  Disallow: */*/trackback
  Disallow: */*/feed/*/
  
  Эта часть вызывает сомнения.
  Я бы переделала так:
  Disallow: /category/
  Disallow: */trackback
  Disallow: */feed/
  А эту часть сократила бы:
  
  Disallow: /wp-login.php
  Disallow: /wp-register.php
  Disallow: /wp-admin
  Disallow: /wp-includes
  Disallow: /wp-content/plugins
  Disallow: /wp-content/cache
  Disallow: /wp-content/themes
  
  Disallow: /wp-
  И я бы не писала директивы отдельно для каждого робота.
  Больше никакой крамолы не вижу, вроде все нормально.
  
  Ответить »
- Роман | 2012.08.16 в 04:25
  
  Татьяна, скачайте свой robots.txt на компьютер, откройте не в обычном блокноте, а в Notepad++ в верхнем меню "Кодировки" выберите пункт "Кодировать в UTF-8 (без BOM)", сохраните и залейте обратно в корень сайта. Проверьте в яндекс анализе robots.txt, всё должно быть хорошо. По крайней мере мне помогло.
  
  Ответить »
- despero | 2013.01.14 в 16:46
  
  Disallow: /*?* такая фича если вы не поменяли дефолтный вид ссылок типа вашблог/?p=416 выкинет из индекса все на свете не только теги категории архивы но и сами посты останется одна морда сайта
  
  Ответить »
Александра (Красивая мама) | 2012.03.25 в 15:34

Здравствуйте, Ксана! Я вижу в вашем файле robots.txt строку Disallow: *?replytocom=, но в поиске у Гугла у вас 3730 страниц и эта функция присутствует, и даже очень много раз. Вот, например, prodengiblog.ru/otzyvy?replytocom=2084

Ответить »
- Ksana | 2012.03.25 в 15:50
  
  Я недавно обнаружила (когда писала этот пост), что на блоге есть страницы с такими адресами и запретила индексацию их в robots.txt, со временем эти страницы выпадут из поиска.
  
  Ответить »
Людмила | 2012.04.13 в 12:24

А у меня может быть странный вопрос. Смотрю статистику Яндекс вебмастера, робот сначала загружает все, что можно, а затем исключает, то, что запрещено файлом роботс. А можно сделать так, чтобы загружались только те страницы, которые нужны, а не всевозможные?

Ответить »
- Ksana | 2012.04.13 в 15:22
  
  Нет, роботы действуют именно так и от нас в этом вопросе мало что зависит.
  
  Ответить »
Сергей | 2012.04.15 в 23:54

Я сделал все как написано в статье, спасибо. Ладно хоть сейчас увидел эту статью

Ответить »
Лена | 2012.05.10 в 18:10

Ксана, будьте добреньки, ответьте!
Видеоконтент, свой-родной, загруженный с YouTube на свой-же сайт, надо включать в индексацию?

Ответить »
- Ksana | 2012.05.10 в 18:30
  
  Если сайт очень молодой или близок к ГС - тогда не надо, ибо нужно ограничить все внешние ссылки.
  Если сайту от года и это СДЛ, тогда включайте в индекс.
  Если есть необходимость постоянно так видео подгружать, то на ютубе можно создать собственный канал, в который загружать видео, а с него поставить ссылку на сайт, тем самым указав поисковикам, что это канал сайта.
  
  Ответить »
Лена | 2012.05.10 в 19:23

Простите, ГС и СДЛ - это?
Необходимость постоянно подгружать есть. На ютубе свой канал есть.
На сайте нет прямых ссылок, я использую шорткод, где только ID.
1. Как поставить ссылку на ютубе?
2. Поисковики и ютуб индексят?
3. На сайте сделать тоже ссылку на ютубовский канал? Не пойму связь ютуб-сайт-поисковики.
Простите за скудоумие.

Ответить »
- Ksana | 2012.05.10 в 19:49
  
  Простите, ГС и СДЛ - это?
  
  ГС - это плохие сайты (я барышня воспитанная 🙂 и поэтому прямым текстом писать не могу), а СДЛ - это Сайты Для Людей.
  Обо всем остальном не подскажу - на знаю, спросите лучше на Форуме в разделе Индексация.
  
  Ответить »
Лена | 2012.05.10 в 20:01

Ksana, спасибо! Уже подцепила сайт к каналу. Спасибо!!!
Robots-на очереди.

Ответить »