Как правильно составить robots.txt для сайта на wordpress

Автор: Ксана
(Людмила Лунева)
Веб-дизайнер и разработчик сайтов на wordpress

Начало статьи читайте здесь »
Файл robots.txt - это служебный файл, в котором можно указать роботам ПС (поисковых систем), какие разделы сайта индексировать, а какие нет. Сделать это можно с помощью специальных директив. Директивы можно написать для всех роботов одновременно или отдельно для робота каждой ПС.
Разделы, закрытые от индексации, не попадут в индекс поисковых систем.
Правильный robots.txt для сайта на wordpress
Что такое Индекс?
Это база данных поисковой системы, в которой она хранит набор встречающихся на интернет-страницах слов и словосочетаний. Эта информация соотнесена с адресами тех веб-страниц, на которых она встречаются, и постоянно пополняется новой информацией, собираемой роботом-пауком поисковой системы.
Для того, чтобы сайт появлялся в выдаче поисковой системы по определенным запросам, он должен быть занесен в индекс этой поисковой системы.
Вообщем, robots.txt – это очень полезный и нужный любому сайту файл.

Общая для всех сайтов часть файла:

Итак, создаем текстовый документ с названием robots.txt и пишем в него следующее:

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-
Disallow: /*trackback
Disallow: /feed
Disallow: /?s=
Disallow: /xmlrpc.php
Allow: /wp-content/uploads/
Host: www.yourdomain.ru
Sitemap: http://yourdomain.ru/sitemap.xml
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: YandexImages
Allow: /wp-content/uploads/
User-agent: ia_archiver
Disallow: /

Пояснения:

User-agent: * - Директива всем роботам

Если нужно, чтобы эти правила работали только для одного, конкретного робота, то вместо * указываем его имя (User-agent: Yandex, User-agent: Googlebot и т.д.).
Disallow: /cgi-bin/
Disallow: /cgi-bin/
Здесь мы запрещаем индексировать папку со скриптами.
Disallow: /wp- - Запрещает индексацию всех папок и файлов движка, начинающихся с wp- (т.е. папок /wp-admin/, /wp-includes/, /wp-content/ и всех файлов, расположенных в корневой папке).
Disallow: /*trackback Disallow: /*comment- Disallow: /feed
Disallow: /*trackback Disallow: /*comment- Disallow: /feed
Запрещаем индексацию комментариев, трекбеков и фида.
Спецсимвол * означает любую (в том числе пустую) последовательность символов, т.е. все, что находится в адресе до указанной части или после нее.
Disallow: /?s= - Запрещаем индексацию результатов поиска.
Allow: /wp-content/uploads/ - Разрешение индексировать папку uploads (а значит и расположенные в ней картинки).

Правило Яндекса для robots.txt гласит:

"Директивы Allow и Disallow из соответствующего User-agent блока сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для данной страницы сайта подходит несколько директив, то выбирается последняя в порядке появления в сортированном списке."
Получается, что директиву Аllow можно указать в любом месте.
Яндекс самостоятельно сортирует список директив и располагает их по длине префикса.
Google понимает Allow и вверху и внизу секции.
Касательно директивы Allow: /wp-content/uploads/ - поскольку, далее мы разрешаем индексировать роботам-индексаторам картинок папку с картинками, я не уверена, что эта директива нужна.
Но, наверное, лишней не будет. Так что, это - на ваше усмотрение.
Host: www.glavnoye-zerkalo.ru - Директива Host понимается только Яндексом и не понимается Гуглом.

В ней указывается главное зеркало сайта, в случае, если у вашего сайта есть зеркала. В поиске будет участвовать только главное зеркало.

Директиву Host лучше написать сразу после директив Disallow (для тех роботов, которые не полностью следуют стандарту при обработке robots.txt).
Для Яндекса директива Host являются межсекционной, поэтому будет найдена роботом не зависимо от того, где она указана в файле robots.txt.
Важно: Директива Host в файле robots.txt может быть только одна.
В случае указания нескольких директив, использоваться будет первая.
Sitemap: http://mysite.ru/sitemaps.xml - Указываем путь к файлу sitemaps.xml

Для Яндекса и Google Sitemap - это межсекционная директива, но лучше написать ее в конце через пустую строку. Так она будет работать для всех роботов сразу.
User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: YandexImages Allow: /wp-content/uploads/
User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: YandexImages Allow: /wp-content/uploads/
Разрешает роботам Googlebot и YandexImages индексировать наши картинки.
User-agent: ia_archiver Disallow: /
User-agent: ia_archiver Disallow: /
Полностью запрещаем роботу веб архива индексацию нашего сайта.
Это предупредительная мера, которая защитит сайт от массового парсинга контента через веб архив.

Итак, мы рассмотрели стандартную часть файла robots.txt, которая подойдет для любого сайта на wordpress.
Но, нам нужно спрятать от роботов-индексаторов еще некоторые разделы сайта, в частности, те, которые создают дублированный контент - разного рода архивы.

Индивидуальные настройки:

Если на вашем сайте есть система древовидных комментариев, как на моем блоге, тогда нужно запретить индексацию таких адресов:

*?replytocom=

Их создает кнопка (ссылка) "Ответить на комментарий".
Страницы архивов на разных сайтах имеют различные адреса, в зависимости от того, как формируются URL на сайте, включены ли ЧПУ или нет.
Как определить адреса архивов вашего сайта?

Для этого нужно открыть архив любого месяца и посмотреть, как выглядит адрес страницы архива.

Он может выглядеть, например, так: http://sait.ru/archives/date/post-1.

В этом случае, выделяем общую для всех архивов по дате часть адреса:
/archives/date/.
Соответственно, в файле robots.txt указываем:
Disallow: /archives/date/*
Будьте внимательны - у вас архивы могут иметь другие адреса.
Например, архив года может иметь такой адрес: http://sait.ru/2012
Тогда закрывать нужно эту часть - /2012/
Напоминаю, что спецсимвол * означает любую последовательность символов, т.е. все, что находится в адресе далее.
Точно так же определяем адреса архивов тегов и архивов автора.
И закрываем их в robots.txt.
Disallow: /archives/tag/ Disallow: /archives/author/
Disallow: /archives/tag/ Disallow: /archives/author/
Рекомендую архивы тегов закрыть примерно на полгода-год, (если у вас молодой сайт) пока он стабильно пропишется в поисковой выдаче.
После этого срока архивы тегов стоит открыть для индексации, так как по наблюдениям, на страницы тегов по поисковым запросам приходит значительно больше посетителей, чем на страницы постов, к которым эти теги созданы.
Но, не добавляйте к постам много тегов, иначе вашему сайту будут грозить санкции за дублированный контент.
Один-два (редко три) тега к одному посту вполне достаточно.
Можно, также, закрыть индексацию всех главных страниц, кроме первой.

Обычно, их адреса выглядят так: http://sait.ru/page/2, http://sait.ru/page/3 и т. д., но лучше проверить.
Перейдите по ссылкам навигации внизу Главной страницы на вторую страницу и посмотрите, как выглядит ее адрес в адресной строке.
Закрываем эти страницы:
Disallow: /page/*
Иногда, на сайте требуется закрыть от индексации еще какие то страницы или папки. В этом случае, действуете аналогично - открываете в браузере нужную вам страницу и смотрите ее адрес. А дальше закрываете его в robots.txt.

Учтите, что если вы закрываете, например, папку "book", то автоматически закроются и все файлы, расположенные в этой папке.

Если закрыть страницу, в URL'е которой есть, например, "news" так: */news/,
то закроются и страницы /news/post-1 и /category/news/.

robots.txt полностью ↓

Открыть ↓

Справка:

Подробности составления robots.txt можно изучить на странице помощи Яндекса - http://help.yandex.ru/webmaster/?id=996567
Проверить правильность составления файла можно в webmaster.yandex - Настройка индексирования - Анализ robots.txt
В Google robots.txt можно проверить по этой ссылке:
https://www.google.com/webmasters/tools/crawl-access?hl=ru&siteUrl=http://site.ru/
Проверяемый сайт должен быть добавлен в панель веб-мастера.
P.S. Для Яндекса и Google правила составления robots.txt немного различаются.
Толкование правил составления robots.txt можно прочитать здесь - http://robotstxt.org.ru
К сожалению, проверить можно только синтаксис.
Правильно ли вы закрыли от индексации разделы сайта, покажет только время :).
Ну вот и все - файл robots.txt готов, осталось только загрузить его в корневой каталог нашего сайта.
Напоминаю, что корневой каталог это папка в которой находится файл config.php.
И последнее - все, сделанные вами изменения в robots.txt, будут заметны на сайте только спустя несколько месяцев.

В тему:

Однажды видела сайт на wordpress, на котором не было файла robots.txt.
Этот сайт некоторое время простоял пустым - т.е. с одной стандартной записью, которая по умолчанию присутствует в wordpress.
Представьте себе, какой шок испытал владелец сайта, когда обнаружил, что Яндекс проиндексировал 2 страницы с контентом и больше тысячи страниц самого движка 🙂
На этой веселой ноте заканчиваю.

Внутренняя оптимизация сайта:

1. Оптимизация кода шаблона.

2. Оптимизация контента.

3. Перелинковка.

4. Файл robots.txt.

5. Файл sitemap.xml.

6. Пинг.

Индексация сайтов комментариев 216 28.02.2012

Хотите получать сообщения о скидочных акциях,
новых постах и темах для wordpress?

Буду благодарна, если Вы поделитесь этим постом:

Присоединяйтесь ко мне в этих сервисах:

комментариев 216 Оставить комментарий

Андрей Суворов | 2012.06.01 в 21:49

Здравствуйте, Ксана! Подскажите, пожалуйста, Google AdSense «ругается», что не может проиндексировать мои страницы, чтобы разместить тематическую рекламу. Предлагает в начало robots.txt поместить конструкцию:
User-agent: Mediapartners-Google
Disallow:
Стоит ли помещать это в robots.txt, и если стоит, то в начало или после
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
Заранее, большое спасибо!

Ответить »
- Ksana | 2012.06.02 в 16:07
  
  Предлагает в начало robots.txt поместить конструкцию:
  User-agent: Mediapartners-Google
  Disallow:
  
  Это просто разрешение роботу Google AdSense индексировать контент на вашем сайте. Поставить эту конструкцию можно в любом месте.
  Хотя традиционно обращения ко всем роботам User-agent: *
  ставят в начале файла robots.txt, а обращения к специализированным роботам в конце.
  
  Ответить »
  - Андрей Суворов | 2012.06.02 в 16:45
    
    Огромное Вам спасибо!
    
    Ответить »
Юлия | 2012.06.07 в 07:08

Спасибо за полезную статью !

Ответить »
Ксения | 2012.07.14 в 20:17

Добрый день,Ksana! Анализатор выдает ошибку
Disallow: /wp-login.php
Перед правилом нет директивы User-agent
Помогите,что мне нужно исправить.
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
Host:vitamin-ya.ru
Sitemap: http://vitamin-ya.ru/sitemap.xml.gz
Sitemap: http://vitamin-ya.ru/sitemap.xml

Ответить »
- Ksana | 2012.07.14 в 20:23
  
  User-agent там как раз есть :).
  Исправить нужно */*/ и это /*
  
  Ответить »
  - Ксения | 2012.07.14 в 22:00
    
    А можно поподробней,что нужно исправить.Я простите,слегка чайник в этих звездочках))
    
    Ответить »
  - Ksana | 2012.07.17 в 13:18
    
    В посте написано, как запретить индексацию trackback и feed, даже с примерами.
    Просто скопируйте оттуда.
    
    Ответить »
ольга | 2012.07.25 в 08:25

Ксана, Здравствуйте! После прочтения Вашей статьи, тоже решила проверить файл robots.txt на Яндекс Вебмастере
В итоге вот что получила:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Дело в том, что шаблон BABY для своего блога я купила у Вас. Его настройку и установку на сайт производили тоже Вы (за плату).
Подскажите пжл., в чем проблема и как ее можно разрешить?
(внутрь настроек не заходила, ничего не исправляла!)

Ответить »
- Ksana | 2012.07.25 в 12:25
  
  шаблон BABY для своего блога я купила у Вас. Его настройку и установку на сайт производили тоже Вы
  
  Ольга, вы заказывали установку и настройку шаблона, но не сайта.
  Соответственно, настраивала я только шаблон. но не сайт.
  Файл robots.txt в шаблону отношения не имеет, поэтому я его не создавала. Это вам нужно было сделать самостоятельно.
  
  Ответить »
  - ольга | 2012.07.25 в 13:13
    
    Ксана, я поняла, спасибо. Попробую сделать.
    
    Ответить »
ольга | 2012.07.25 в 13:34

Ксана, будьте добры, посмотрите мой robots.txt:
User-agent: *
Allow: /
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /cgi-bin/
Sitemap: http://olga-jban.ru//sitemap.xml
User-agent: YandexBlog
Disallow:
User-agent: Yandex
Allow: /
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /cgi-bin/
Host: olga-jban.ru

Ответить »
- ольга | 2012.07.25 в 13:37
  
  Ксана, скажите пжл, я должна еще сделать какие-либо настройки на сайте помимо robots.txt
  
  Ответить »
  - Ksana | 2012.07.25 в 17:43
    
    Настроить wordpress
    
    Ответить »
    - ольга | 2012.07.25 в 19:17
      
      Спасибо! Непременно воспользуюсь вашей статьей.
      
      Ответить »
- Ksana | 2012.07.25 в 17:41
  
  Все правильно, но можно сократить:
  Disallow: /wp-
  и нет надобности создавать отдельные блоки для разных роботов.
  
  Ответить »
  - ольга | 2012.07.25 в 19:19
    
    Учту! Ксаночка, спасибо Вам огромное!
    
    Ответить »
Альбина | 2012.07.28 в 14:20

У меня домен в зоне рф. Правильно ли прописан файл? Или заменить кракозябрами?
Sitemap: http://отдых-геленджике.рф/sitemap.xml

Ответить »
- Ksana | 2012.07.28 в 14:24
  
  Правильно.
  
  Ответить »
  - Альбина | 2012.07.28 в 15:26
    
    User-agent: *
    Disallow: /cgi-bin/
    ...
    Host: ��-��.��
    18-18
    Sitemap: http://��-��.��/sitemap.xml
    Вот что ругает Яндекс мой русский домен. Это нормально?
    СПАСИБО
    
    Ответить »
    - Ksana | 2012.07.28 в 17:09
      
      То, что ругает?
      Правильно делает - русские домены это извращение.
      
      Ответить »
Iryna | 2012.07.29 в 01:37

Ксана, а если у меня оказался не прописан адрес сайта в robots txt а сайту уже почти год. Если я внесу изменения, как это повлияет? Сейчас проиндексировано нормально, насколько я понимаю

Ответить »
- Ksana | 2012.07.29 в 10:29
  
  Если вы имеете ввиду host, то просто напишите его - индексация от этого не ухудшится.
  
  Ответить »
Iryna | 2012.07.29 в 11:32

User-agent: *
Crawl-delay: 4
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
User-agent: Yandex
Crawl-delay: 4
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Host: ¬јЎ—ј…“
Sitemap: http://¬јЎ—ј…“/sitemap.xml.gz
Sitemap: http://¬јЎ—ј…“/sitemap.xml
Вот такой robots txt у меня сейчас стоит. После Вашей статьи я бы основательно
сменила его, а не только вписала правильный домен. Что посоветуете? (Сайту хоть и десять месяцев но статей только около 40 и проиндексированы все).

Ответить »
- Ksana | 2012.07.29 в 11:44
  
  Я бы тоже сменила :).
  А как именно сменить - написано в посте.
  
  Ответить »
Александр | 2012.08.06 в 17:12

Нет такого слова "Вообщем"!

Ответить »
- Ксана | 2012.08.06 в 18:51
  
  Если у вас такого слова нет, значит не используйте его.
  А у меня такое слово есть :).
  
  Ответить »
Евгений | 2012.08.24 в 00:18

Что Вы можете сказать о проверочном сервис http://tool.motoricerca.info/robots-checker.phtml
При проверке на этом сервисе файл robots.txt этого сайта практически весь красный. Проверял так же свой и некоторые другие сайты. Количество ошибок везде разное, но они одинаковы для всех файлов.

Ответить »
- Ксана | 2012.08.24 в 01:52
  
  Могу сказать, что у него паранойя :).
  
  Ответить »
kulinaris | 2012.09.13 в 13:27

*интересуицца* А вот подскажите : есть такая конструкция
Disallow: /page/
А в чем отличие от
Disallow: /page/*
Чей-то я затупил...
Заранее спасибо.

Ответить »
- Ксана | 2012.09.14 в 13:42
  
  Отличия нет :).
  
  Ответить »
  - kulinaris | 2012.09.15 в 02:48
    
    от пасиба 😎
    
    Ответить »
Простой | 2012.09.15 в 02:13

Такой вот вопрос возник. А нужно ли / как скрывать /скрыть такое: сайт.ру/2012/08??
А то в яндекс вебмастере показывается, что это вот про индексировалось: сайт.ру/2012/08.
То есть как я понимаю архив в индексацию влез?

Ответить »
- Ксана | 2012.09.15 в 14:02
  
  Скрывать можно и нужно.
  Как это сделать, читайте в посте.
  
  Ответить »
Евгений | 2012.10.04 в 19:53

А почему archives, а не archive?

Ответить »
Дмитрий | 2012.10.22 в 08:55

Здравствуйте. Прочитал вашу статью. Большое спасибо. Выключил категории и теги в роботс. Но я не совсем первоначально правильно выставил стуктуру линков на wordpress. Поэтому пришлось постараться запретить архивы, чтобы не пострадали статьи. После изменения в robots - вылетели статьи почти все. Хотя при проверке на Яндекс.Вебмастерс - статьи разрешены.
Но они есть в исключенных страницах - там есть внутренние ссылки на них с исключенных страниц.
Я зря запретил категории в моем случае?
Выдержка из моего robots.txt
User-agent: Yandex
Crawl-delay: 5
Disallow: /category/
Disallow: /201*/01/$
Disallow: /201*/02/$
Disallow: /201*/03/$
Disallow: /201*/04/$
Disallow: /201*/05/$
Disallow: /201*/06/$
Disallow: /201*/07/$
Disallow: /201*/08/$
Disallow: /201*/09/$
Disallow: /201*/10/$
Disallow: /201*/11/$
Disallow: /201*/12/$
Disallow: /tag
Disallow: /page/*
Disallow: /?s=
Disallow: /?p=

Ответить »
- Дмитрий | 2012.10.22 в 13:29
  
  Я уже вернул категории - в разрешенные. Но почему вылетили все статьи после запрета на категории? Вернутся ли они обратно в выдачу?
  
  Ответить »
  - Ксана | 2012.10.22 в 15:08
    
    Похоже, что у вас в robots.txt запрещена индексация записей.
    Поэтому, чтобы ваши записи вернулись в поисковую выдачу, нужно разрешить их индексировать в robots.txt.
    
    Ответить »
    - Дмитрий | 2012.10.22 в 15:19
      
      http://carinlife.ru/robots.txt
      Прогонял через их яндекс.вебмастер аналитикатор.
      Все статьи - разрешены.
      Архивы - запрещены и тд.
      Но в яндексвебмастерс статьи попали в исключенные. И там вот у этих исключенных статей есть ссылки внутренние на них с запрещенных страниц(если точнее, с категорий).
      Disallow: /201*/12/$ - вот такая конструкция имеет место быть? Для всех поисковиков? Я в яндексе же про нее и вычитал.
      Из-за такой структуры линка http://carinlife.ru/2012/10/статья - (менять-то уже поздно) . Мне пришлось писать Disallow: /201*/12/$ и тд.
      При проверке robots.txt - статьи разрешены к индексу.
      Вы не могли подсказать, в каком месте я запретил индексацию записей?
      
      Ответить »
      - Ксана | 2012.10.23 в 12:27
        
        Я полагала, что в этом /201*/12/$.
        Но, раз яндекс утверждает, что эта конструкция допустимая, тогда не подскажу.
        Напишите в техподдержку яндекса и спросите их.
Андрей | 2012.11.04 в 23:14

Буду верить что ваш робот поможет мне попасть в яндекс, спасибо.

Ответить »
Роман | 2012.11.28 в 18:01

Здравствуйте, Ксана. Скажите пожалуйста, как лучше написать robots.txt? который в вашей статье или в вашей книжке? Они отличаются. "Алло" вначале ставить или в конце? А то я месяц с этим "роботсом" ношусь, как белка с орехом, сайт не могу запустить. Заранее благодарен.

Ответить »
- Ксана | 2012.11.29 в 14:23
  
  В документации Яндекса по использования файла robots.txt написано, что порядок следования директив в файле robots.txt не влияет на использование их роботом.
  Поэтому, allow можно использовать, и в начале, и в конце файла.
  
  Ответить »
  - Роман | 2012.11.29 в 14:26
    
    Большое спасибо, что уделили внимание.
    
    Ответить »
Андрей(boosya) | 2012.12.09 в 04:11

Здравствуйте! Подскажите мне уважаемая, если на блоге есть ссылки такого характера: ......ru/plaginy/ne-rabotayut-smajly.html#comments
Могу ли я закрыть вот так: Disallow: /# Что бы не плодить ссылки-комменты?

Ответить »
- Ксана | 2012.12.09 в 14:20
  
  Этим вы закроете не только ссылки на комменты, но и весь сайт.
  Так, что не стоит - тем более, что все, что идет после знака # Яндекс и так не индексирует.
  
  Ответить »
despero | 2012.12.24 в 14:05

ой люди , да забейте вы на тот роботекст ) и гугля и яшка вордпресс знают как облупленный , и пофиг что там в выдачу вылезет тег или пост лишь бы трафик был а он от роботекста независт нехрена . проверено опытом , проверял ради интереса на своей сетке блогов , практически идентичных (только контент уникальный везде) так вот изначально на всех блогах роботексты были дефолтные (а может и вообще не было хрен его знает , я лично ниче не делал) вот , потом думаю а давай на одном блоге поставлю правильный роботекст . поставил ясен пень вылетело все из выдачи осталось десяток страниц с постами , трафик упал ниже плинтуса с полторы тысячи до сотни ( это в день ) потом потихоньку начало возвращатся , но до прежних результатов так и не вернулось , вот такие пироги ) выводы делайте сами

Ответить »
Юлия | 2013.01.16 в 10:26

Здравствуйте,
подскажите пожалуйста, эти две директивы чем отличаются:
Disallow: /*?*
Disallow: /?

Ответить »
- Ксана | 2013.01.16 в 11:41
  
  Эта директива Disallow: /? запрещает индексировать страницы, в адресах которых есть знак вопроса после имени домена.
  Disallow: /*?* - а это вольное творчество владельцев сайтов.
  Не уверена, что робот индексатор это понимает.
  
  Ответить »
Вадим | 2013.01.18 в 05:02

Здравствуйте,случайно наткнулся на ваш сайт и посмотрел свой robots - прямо страшно стало, дублей море.
Подскажите, Disallow: /page/* поставил дубли типо: http://сайт.ru/page/2/убрал, но есть такое дело http://сайт.ru/vse-recepty/page/2/ как тут быть ?
Зарание благодарю за ответ.

Ответить »
- Ксана | 2013.01.18 в 10:26
  
  Знак * после page/ закроет от индексации все следующие страницы - и 2ю и 3ю и все прочие.
  
  Ответить »
Любовь | 2013.01.19 в 17:45

Добрый день. Вы все понятно излагаете. У меня такая ситуации. Статьи проиндексированы, а сайт- нет. Может в Robots.txt , что- не то. Посмотрите, пожалуйста.
User-agent: Mediapartners-Google*
Disallow:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Host: lubovm.ru

Ответить »
- Ксана | 2013.01.19 в 22:16
  
  Сравните свой robots.txt с примером, описанным в посте, и вы сами поймете, где у вас ошибки.
  
  Ответить »
  - Любовь | 2013.01.20 в 14:27
    
    Я проверила до этого . У меня не описано правило Allow, но когда я проверяла в webmastere яндекса lubovm.ru , выдается сообщение "разрешен".
    
    Ответить »
    - Ксана | 2013.01.21 в 12:17
      
      Значит, все нормально.
      Хотя у меня вызывает сомнение правильность таких конструкций - */*/feed/*/
      Но, по -видимому, Яндекс их понимает, если пишет, что нормально.
      
      Ответить »
Светлана | 2013.01.22 в 22:07

Здравствуйте Людмила. Я уставила Вордпресс в папку "блог" на своем сайте. Получается такой адрес: www.mysite/blog. Куда в таком случае установить файл robots.txt для Вордпресс? В корень основного сайта или в сам Вордпресс? Если в корень сайта, то как прописать правила, если путь к папкам будет отличаться?

Ответить »
- Ксана | 2013.01.23 в 12:47
  
  robots.txt кладете в корень сайта и прописываете в нем ВСЕ адреса, которые вы хотите закрыть от индексации, даже если они разные :).
  
  Ответить »
Юлия | 2013.01.23 в 14:30

Подскажите пожалуйста, в Google webmasters указано, что мой файл robots.txt блокирует все страницы. Вот мой роботс:
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-
Disallow: */trackback
Disallow: */comment-
Disallow: *?replytocom=
Disallow: */feed
Disallow: /?s=
Disallow: /xmlrpc.php
Disallow: /archives/date/
Disallow: /archives/tag/
Disallow: /archives/author/
Disallow: /page/*
Disallow: /tag/*
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /?
Disallow: /404.php
Disallow: /arxivy
Allow: /wp-content/uploads/
Host: site.ru
Sitemap: http://site.ru/sitemap.xml
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: YandexImages
Allow: /wp-content/uploads/
User-agent: ia_archiver
Disallow: /
Где же ошибка? Я составляла по этой статье, все проверила. Спасибо за помощь!

Ответить »
- Ксана | 2013.01.23 в 17:09
  
  Я не вижу здесь ошибок.
  
  Ответить »
  - Юлия | 2013.01.25 в 05:56
    
    Спасибо
    
    Ответить »
- Любовь | 2013.01.23 в 19:06
  
  А какое же имя Вашего хоста, Host: site.ru?
  
  Ответить »
  - Юлия | 2013.01.25 в 05:55
    
    Да нет, Любовь. Просто не хочется обнародовать сайт.
    
    Ответить »
Рома | 2013.01.31 в 21:48

Тут Host: www.yourdomain.ru , лучше убрать www , иначе посторонним легко будет склеить домен

Ответить »
Cергей | 2013.02.03 в 23:27

а подскажите я бы хотел, что бы коментарии сайта индексировались, возможно это как-то коректно сделать, чтобы не было дублей

Ответить »
- Ксана | 2013.02.04 в 13:24
  
  Комментарии и так индексируются.
  Закрывать от индексации нужно только ссылки в комментариях.
  
  Ответить »
Екатерина | 2013.02.10 в 22:06

Здравствуйте! Подскажите пожалуйста, как правильно закрывать страницы - Disallow: /page/ или Disallow: /page/*? У Вас в статье написано /page/ , а Юлии в комментарии выше Вы сказали,что /page/* правильно... И еще: надо ли закрывать тэги от индексации? Это хоть и дубли, но знаю,что многие не закрывают.

Ответить »
- Ксана | 2013.02.11 в 01:27
  
  Disallow: /page/ и Disallow: /page/* - это одно и тоже.
  Касательно тегов - в первый год жизни сайта их лучше закрыть от индексации, а дальше можно открыть.
  
  Ответить »
  - Екатерина | 2013.02.11 в 14:57
    
    Спасибо за ответ) с тегами так и поступлю, пока что закрою. А еще подскажите пожалуйста, заметила,что в индексе индексируются страницы такого плана site.ru/2012/02/24/, site.ru/2012/02/19/, и еще вот такая страничка site.ru/author/admin/. Это нормально?
    
    Ответить »
    - Ксана | 2013.02.12 в 13:34
      
      Нет. Это все разные типы архивов и их нужны закрыть от индексации.
      
      Ответить »
Ivanna | 2013.02.19 в 18:28

Ксана подскажите пожалуйста,удалила robots.txt,загружала на хост,решила проверить как удалила на сайте,а он есть,правда какой то маленький,через яндекс-то же самое.как мне его найти и удалить,чтоб загрузить новый

Ответить »
- Ксана | 2013.02.22 в 00:21
  
  Файл robots.txt находится в корне сайта - там его и ищите.
  
  Ответить »
Катерина | 2013.03.23 в 10:58

robot txt мне дали. Не могла понять, почему мой сайт не видит ни Яндекс, ни Googl. После проверки робота мне написали, что робот блокирует все страницы. Индексируется только главная страница. Извените, но я совсем не понимаю то, о чём вы пишете. Боюсь ещё хуже сделать, если залезу сама. Пожалуйста, поглядите на мой робот, что надо сделать, чтоб мой сайт увидели? Заранее благодарна вам! Ваш сайт просто находка для меня!!!
?User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
Host: info-siti.ru
Sitemap: http://info-siti.ru/sitemap.xml.gz
Sitemap: http://info-siti.ru/sitemap.xml

Ответить »
- Ксана | 2013.03.27 в 13:11
  
  На мой взгляд, все нормально.
  
  Ответить »
  - Катерина | 2013.03.27 в 17:45
    
    Мне пишут вот так: Индексирование страниц запрещено в вашем файле robots.txt.
    Робот видет только первую страницу. Не понимаю почему.
    
    Ответить »
    - Ксана | 2013.03.27 в 18:05
      
      Я не вижу причины для этого.
      Вам лучше написать в техподдержку Яндекса и спросить их, где именно это запрещение.
      
      Ответить »
Федор | 2013.06.02 в 16:12

Здравствуйте, Людмила!
Хотел бы уточнить 2 вопроса:
1. У меня адрес архива по датам выводится в виде: Mysite/2012/.
Будет ли правильной такая запись: Disallow: /2012/*
Или можно написать это и так: Disallow: /20*/*
2. Адрес 2-ой страницы в постраничной навигации такой: Mysite/page/2
Если закрыть подобные записи от индексации ботами (Disallow: /page/*), то не получится ли, что боты не будут видеть ни одной страницы, кроме главной?
Спасибо!

Ответить »
- Ксана | 2013.06.04 в 00:55
  
  1. Так Disallow: /2012/* лучше.
  2. Я не знаю структуры ссылок на вашем сайте, поэтому 2й вопрос ответить не могу.
  
  Ответить »