Как правильно составить robots.txt для сайта на wordpress

Автор:
(Людмила Лунева)

Веб-дизайнер и разработчик сайтов на wordpress

Начало статьи читайте здесь »
Файл robots.txt - это служебный файл, в котором можно указать роботам ПС (поисковых систем), какие разделы сайта индексировать, а какие нет. Сделать это можно с помощью специальных директив. Директивы можно написать для всех роботов одновременно или отдельно для робота каждой ПС.
Разделы, закрытые от индексации, не попадут в индекс поисковых систем.
Правильный robots.txt для сайта на wordpress
Что такое Индекс?
Это база данных поисковой системы, в которой она хранит набор встречающихся на интернет-страницах слов и словосочетаний. Эта информация соотнесена с адресами тех веб-страниц, на которых она встречаются, и постоянно пополняется новой информацией, собираемой роботом-пауком поисковой системы.
Для того, чтобы сайт появлялся в выдаче поисковой системы по определенным запросам, он должен быть занесен в индекс этой поисковой системы.
Вообщем, robots.txt – это очень полезный и нужный любому сайту файл.

Общая для всех сайтов часть файла:

Итак, создаем текстовый документ с названием robots.txt и пишем в него следующее:

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-
Disallow: /*trackback
Disallow: /feed
Disallow: /?s=
Disallow: /xmlrpc.php
Allow: /wp-content/uploads/
Host: www.yourdomain.ru
Sitemap: http://yourdomain.ru/sitemap.xml
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: YandexImages
Allow: /wp-content/uploads/
User-agent: ia_archiver
Disallow: /

Пояснения:

  • User-agent: * - Директива всем роботам

    Если нужно, чтобы эти правила работали только для одного, конкретного робота, то вместо * указываем его имя (User-agent: Yandex, User-agent: Googlebot и т.д.).

  • Disallow: /cgi-bin/

    Здесь мы запрещаем индексировать папку со скриптами.

  • Disallow: /wp- - Запрещает индексацию всех папок и файлов движка, начинающихся с wp- (т.е. папок /wp-admin/, /wp-includes/, /wp-content/ и всех файлов, расположенных в корневой папке).
  • Disallow: /*trackback
    Disallow: /*comment-
    Disallow: /feed

    Запрещаем индексацию комментариев, трекбеков и фида.
    Спецсимвол * означает любую (в том числе пустую) последовательность символов, т.е. все, что находится в адресе до указанной части или после нее.

  • Disallow: /?s= - Запрещаем индексацию результатов поиска.
  • Allow: /wp-content/uploads/ - Разрешение индексировать папку uploads (а значит и расположенные в ней картинки).

    Правило Яндекса для robots.txt гласит:

    "Директивы Allow и Disallow из соответствующего User-agent блока сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для данной страницы сайта подходит несколько директив, то выбирается последняя в порядке появления в сортированном списке."
    Получается, что директиву Аllow можно указать в любом месте.
    Яндекс самостоятельно сортирует список директив и располагает их по длине префикса.
    Google понимает Allow и вверху и внизу секции.
    Касательно директивы Allow: /wp-content/uploads/ - поскольку, далее мы разрешаем индексировать роботам-индексаторам картинок папку с картинками, я не уверена, что эта директива нужна.
    Но, наверное, лишней не будет. Так что, это - на ваше усмотрение.

  • Host: www.glavnoye-zerkalo.ru - Директива Host понимается только Яндексом и не понимается Гуглом.

    В ней указывается главное зеркало сайта, в случае, если у вашего сайта есть зеркала. В поиске будет участвовать только главное зеркало.

    Директиву Host лучше написать сразу после директив Disallow (для тех роботов, которые не полностью следуют стандарту при обработке robots.txt).
    Для Яндекса директива Host являются межсекционной, поэтому будет найдена роботом не зависимо от того, где она указана в файле robots.txt.
    Важно: Директива Host в файле robots.txt может быть только одна.
    В случае указания нескольких директив, использоваться будет первая.

  • Sitemap: http://mysite.ru/sitemaps.xml - Указываем путь к файлу sitemaps.xml

    Для Яндекса и Google Sitemap - это межсекционная директива, но лучше написать ее в конце через пустую строку. Так она будет работать для всех роботов сразу.

  • User-agent: Googlebot-Image
    Allow: /wp-content/uploads/
    User-agent: YandexImages
    Allow: /wp-content/uploads/

    Разрешает роботам Googlebot и YandexImages индексировать наши картинки.

  • User-agent: ia_archiver
    Disallow: /

    Полностью запрещаем роботу веб архива индексацию нашего сайта.
    Это предупредительная мера, которая защитит сайт от массового парсинга контента через веб архив.

Итак, мы рассмотрели стандартную часть файла robots.txt, которая подойдет для любого сайта на wordpress.
Но, нам нужно спрятать от роботов-индексаторов еще некоторые разделы сайта, в частности, те, которые создают дублированный контент - разного рода архивы.

Индивидуальные настройки:

  • Если на вашем сайте есть система древовидных комментариев, как на моем блоге, тогда нужно запретить индексацию таких адресов:

    *?replytocom=

    Их создает кнопка (ссылка) "Ответить на комментарий".

  • Страницы архивов на разных сайтах имеют различные адреса, в зависимости от того, как формируются URL на сайте, включены ли ЧПУ или нет.
    Как определить адреса архивов вашего сайта?

    Для этого нужно открыть архив любого месяца и посмотреть, как выглядит адрес страницы архива.

    Он может выглядеть, например, так: http://sait.ru/archives/date/post-1.

    В этом случае, выделяем общую для всех архивов по дате часть адреса:
    /archives/date/.
    Соответственно, в файле robots.txt указываем:
    Disallow: /archives/date/*
    Будьте внимательны - у вас архивы могут иметь другие адреса.
    Например, архив года может иметь такой адрес: http://sait.ru/2012
    Тогда закрывать нужно эту часть - /2012/
    Напоминаю, что спецсимвол * означает любую последовательность символов, т.е. все, что находится в адресе далее.

  • Точно так же определяем адреса архивов тегов и архивов автора.
    И закрываем их в robots.txt.

    Disallow: /archives/tag/
    Disallow: /archives/author/

    Рекомендую архивы тегов закрыть примерно на полгода-год, (если у вас молодой сайт) пока он стабильно пропишется в поисковой выдаче.
    После этого срока архивы тегов стоит открыть для индексации, так как по наблюдениям, на страницы тегов по поисковым запросам приходит значительно больше посетителей, чем на страницы постов, к которым эти теги созданы.
    Но, не добавляйте к постам много тегов, иначе вашему сайту будут грозить санкции за дублированный контент.
    Один-два (редко три) тега к одному посту вполне достаточно.

  • Можно, также, закрыть индексацию всех главных страниц, кроме первой.

    Обычно, их адреса выглядят так: http://sait.ru/page/2, http://sait.ru/page/3 и т. д., но лучше проверить.
    Перейдите по ссылкам навигации внизу Главной страницы на вторую страницу и посмотрите, как выглядит ее адрес в адресной строке.
    Закрываем эти страницы:
    Disallow: /page/*

  • Иногда, на сайте требуется закрыть от индексации еще какие то страницы или папки. В этом случае, действуете аналогично - открываете в браузере нужную вам страницу и смотрите ее адрес. А дальше закрываете его в robots.txt.

    Учтите, что если вы закрываете, например, папку "book", то автоматически закроются и все файлы, расположенные в этой папке.

    Если закрыть страницу, в URL'е которой есть, например, "news" так: */news/,
    то закроются и страницы /news/post-1 и /category/news/.

robots.txt полностью ↓

Открыть ↓
Для разблокировки содержимого, введите код из последнего, присланного вам письма.

Справка:

Подробности составления robots.txt можно изучить на странице помощи Яндекса - http://help.yandex.ru/webmaster/?id=996567
Проверить правильность составления файла можно в webmaster.yandex - Настройка индексирования - Анализ robots.txt
В Google robots.txt можно проверить по этой ссылке:
https://www.google.com/webmasters/tools/crawl-access?hl=ru&siteUrl=http://site.ru/
Проверяемый сайт должен быть добавлен в панель веб-мастера.
P.S. Для Яндекса и Google правила составления robots.txt немного различаются.
Толкование правил составления robots.txt можно прочитать здесь - http://robotstxt.org.ru
К сожалению, проверить можно только синтаксис.
Правильно ли вы закрыли от индексации разделы сайта, покажет только время :).
Ну вот и все - файл robots.txt готов, осталось только загрузить его в корневой каталог нашего сайта.
Напоминаю, что корневой каталог это папка в которой находится файл config.php.
И последнее - все, сделанные вами изменения в robots.txt, будут заметны на сайте только спустя несколько месяцев.

В тему:

Однажды видела сайт на wordpress, на котором не было файла robots.txt.
Этот сайт некоторое время простоял пустым - т.е. с одной стандартной записью, которая по умолчанию присутствует в wordpress.
Представьте себе, какой шок испытал владелец сайта, когда обнаружил, что Яндекс проиндексировал 2 страницы с контентом и больше тысячи страниц самого движка 🙂
На этой веселой ноте заканчиваю.

Внутренняя оптимизация сайта:

1. Оптимизация кода шаблона.

2. Оптимизация контента.

3. Перелинковка.

4. Файл robots.txt.

5. Файл sitemap.xml.

6. Пинг.

  1. 5
  2. 4
  3. 3
  4. 2
  5. 1

(9 голосов, в среднем: 3.4 из 5)

Комментарии

  1. Здравствуйте, Ксана! Подскажите, пожалуйста, Google AdSense «ругается», что не может проиндексировать мои страницы, чтобы разместить тематическую рекламу. Предлагает в начало robots.txt поместить конструкцию:
    User-agent: Mediapartners-Google
    Disallow:
    Стоит ли помещать это в robots.txt, и если стоит, то в начало или после
    User-agent: Googlebot-Image
    Allow: /wp-content/uploads/
    Заранее, большое спасибо!

    • Предлагает в начало robots.txt поместить конструкцию:
      User-agent: Mediapartners-Google
      Disallow:

      Это просто разрешение роботу Google AdSense индексировать контент на вашем сайте. Поставить эту конструкцию можно в любом месте.
      Хотя традиционно обращения ко всем роботам User-agent: *
      ставят в начале файла robots.txt, а обращения к специализированным роботам в конце.

      • Огромное Вам спасибо!

  2. Спасибо за полезную статью !

  3. Добрый день,Ksana! Анализатор выдает ошибку
    Disallow: /wp-login.php
    Перед правилом нет директивы User-agent
    Помогите,что мне нужно исправить.
    User-agent: *
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /feed/
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */comments
    Disallow: /category/*/*
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /*?*
    Disallow: /?s=
    User-agent: Yandex
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /feed/
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */comments
    Disallow: /category/*/*
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /*?*
    Disallow: /?s=
    Host:vitamin-ya.ru
    Sitemap: http://vitamin-ya.ru/sitemap.xml.gz
    Sitemap: http://vitamin-ya.ru/sitemap.xml

    • User-agent там как раз есть :).
      Исправить нужно */*/ и это /*

      • А можно поподробней,что нужно исправить.Я простите,слегка чайник в этих звездочках))

      • В посте написано, как запретить индексацию trackback и feed, даже с примерами.
        Просто скопируйте оттуда.

  4. Ксана, Здравствуйте! После прочтения Вашей статьи, тоже решила проверить файл robots.txt на Яндекс Вебмастере
    В итоге вот что получила:
    User-agent: *
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Дело в том, что шаблон BABY для своего блога я купила у Вас. Его настройку и установку на сайт производили тоже Вы (за плату).
    Подскажите пжл., в чем проблема и как ее можно разрешить?
    (внутрь настроек не заходила, ничего не исправляла!)

    • шаблон BABY для своего блога я купила у Вас. Его настройку и установку на сайт производили тоже Вы

      Ольга, вы заказывали установку и настройку шаблона, но не сайта.
      Соответственно, настраивала я только шаблон. но не сайт.
      Файл robots.txt в шаблону отношения не имеет, поэтому я его не создавала. Это вам нужно было сделать самостоятельно.

      • Ксана, я поняла, спасибо. Попробую сделать.

  5. Ксана, будьте добры, посмотрите мой robots.txt:
    User-agent: *
    Allow: /
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /xmlrpc.php
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /wp-content/
    Disallow: /trackback/
    Disallow: /feed/
    Disallow: /comments/
    Disallow: */trackback/
    Disallow: */feed/
    Disallow: */comments/
    Disallow: /?feed=
    Disallow: /cgi-bin/
    Sitemap: http://olga-jban.ru//sitemap.xml
    User-agent: YandexBlog
    Disallow:
    User-agent: Yandex
    Allow: /
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /xmlrpc.php
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /wp-content/
    Disallow: /trackback/
    Disallow: /feed/
    Disallow: /comments/
    Disallow: */trackback/
    Disallow: */feed/
    Disallow: */comments/
    Disallow: /?feed=
    Disallow: /cgi-bin/
    Host: olga-jban.ru

    • Ксана, скажите пжл, я должна еще сделать какие-либо настройки на сайте помимо robots.txt

    • Все правильно, но можно сократить:
      Disallow: /wp-
      и нет надобности создавать отдельные блоки для разных роботов.

      • Учту! Ксаночка, спасибо Вам огромное!

  6. У меня домен в зоне рф. Правильно ли прописан файл? Или заменить кракозябрами?
    Sitemap: http://отдых-геленджике.рф/sitemap.xml

    • Правильно.

      • User-agent: *
        Disallow: /cgi-bin/
        ...
        Host: �����-����������.��
        18-18
        Sitemap: http://�����-����������.��/sitemap.xml
        Вот что ругает Яндекс мой русский домен. Это нормально?
        СПАСИБО

        • То, что ругает?
          Правильно делает - русские домены это извращение.

  7. Ксана, а если у меня оказался не прописан адрес сайта в robots txt а сайту уже почти год. Если я внесу изменения, как это повлияет? Сейчас проиндексировано нормально, насколько я понимаю

    • Если вы имеете ввиду host, то просто напишите его - индексация от этого не ухудшится.

  8. User-agent: *
    Crawl-delay: 4
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /*?*
    User-agent: Yandex
    Crawl-delay: 4
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /*?*
    Host: ¬јЎ—ј…“
    Sitemap: http://¬јЎ—ј…“/sitemap.xml.gz
    Sitemap: http://¬јЎ—ј…“/sitemap.xml
    Вот такой robots txt у меня сейчас стоит. После Вашей статьи я бы основательно
    сменила его, а не только вписала правильный домен. Что посоветуете? (Сайту хоть и десять месяцев но статей только около 40 и проиндексированы все).

    • Я бы тоже сменила :).
      А как именно сменить - написано в посте.

  9. Нет такого слова "Вообщем"!

    • Если у вас такого слова нет, значит не используйте его.
      А у меня такое слово есть :).

  10. Что Вы можете сказать о проверочном сервис http://tool.motoricerca.info/robots-checker.phtml
    При проверке на этом сервисе файл robots.txt этого сайта практически весь красный. Проверял так же свой и некоторые другие сайты. Количество ошибок везде разное, но они одинаковы для всех файлов.

    • Могу сказать, что у него паранойя :).

  11. *интересуицца* А вот подскажите : есть такая конструкция
    Disallow: /page/
    А в чем отличие от
    Disallow: /page/*
    Чей-то я затупил...
    Заранее спасибо.

  12. Такой вот вопрос возник. А нужно ли / как скрывать /скрыть такое: сайт.ру/2012/08??
    А то в яндекс вебмастере показывается, что это вот про индексировалось: сайт.ру/2012/08.
    То есть как я понимаю архив в индексацию влез?

    • Скрывать можно и нужно.
      Как это сделать, читайте в посте.

  13. А почему archives, а не archive?

  14. Здравствуйте. Прочитал вашу статью. Большое спасибо. Выключил категории и теги в роботс. Но я не совсем первоначально правильно выставил стуктуру линков на wordpress. Поэтому пришлось постараться запретить архивы, чтобы не пострадали статьи. После изменения в robots - вылетели статьи почти все. Хотя при проверке на Яндекс.Вебмастерс - статьи разрешены.
    Но они есть в исключенных страницах - там есть внутренние ссылки на них с исключенных страниц.
    Я зря запретил категории в моем случае?
    Выдержка из моего robots.txt
    User-agent: Yandex
    Crawl-delay: 5
    Disallow: /category/
    Disallow: /201*/01/$
    Disallow: /201*/02/$
    Disallow: /201*/03/$
    Disallow: /201*/04/$
    Disallow: /201*/05/$
    Disallow: /201*/06/$
    Disallow: /201*/07/$
    Disallow: /201*/08/$
    Disallow: /201*/09/$
    Disallow: /201*/10/$
    Disallow: /201*/11/$
    Disallow: /201*/12/$
    Disallow: /tag
    Disallow: /page/*
    Disallow: /?s=
    Disallow: /?p=

    • Я уже вернул категории - в разрешенные. Но почему вылетили все статьи после запрета на категории? Вернутся ли они обратно в выдачу?

      • Похоже, что у вас в robots.txt запрещена индексация записей.
        Поэтому, чтобы ваши записи вернулись в поисковую выдачу, нужно разрешить их индексировать в robots.txt.

        • http://carinlife.ru/robots.txt
          Прогонял через их яндекс.вебмастер аналитикатор.
          Все статьи - разрешены.
          Архивы - запрещены и тд.
          Но в яндексвебмастерс статьи попали в исключенные. И там вот у этих исключенных статей есть ссылки внутренние на них с запрещенных страниц(если точнее, с категорий).
          Disallow: /201*/12/$ - вот такая конструкция имеет место быть? Для всех поисковиков? Я в яндексе же про нее и вычитал.
          Из-за такой структуры линка http://carinlife.ru/2012/10/статья - (менять-то уже поздно) . Мне пришлось писать Disallow: /201*/12/$ и тд.
          При проверке robots.txt - статьи разрешены к индексу.
          Вы не могли подсказать, в каком месте я запретил индексацию записей?

          • Я полагала, что в этом /201*/12/$.
            Но, раз яндекс утверждает, что эта конструкция допустимая, тогда не подскажу.
            Напишите в техподдержку яндекса и спросите их.

  15. Буду верить что ваш робот поможет мне попасть в яндекс, спасибо.

  16. Здравствуйте, Ксана. Скажите пожалуйста, как лучше написать robots.txt? который в вашей статье или в вашей книжке? Они отличаются. "Алло" вначале ставить или в конце? А то я месяц с этим "роботсом" ношусь, как белка с орехом, сайт не могу запустить. Заранее благодарен.

    • В документации Яндекса по использования файла robots.txt написано, что порядок следования директив в файле robots.txt не влияет на использование их роботом.
      Поэтому, allow можно использовать, и в начале, и в конце файла.

      • Большое спасибо, что уделили внимание.

  17. Здравствуйте! Подскажите мне уважаемая, если на блоге есть ссылки такого характера: ......ru/plaginy/ne-rabotayut-smajly.html#comments
    Могу ли я закрыть вот так: Disallow: /# Что бы не плодить ссылки-комменты?

    • Этим вы закроете не только ссылки на комменты, но и весь сайт.
      Так, что не стоит - тем более, что все, что идет после знака # Яндекс и так не индексирует.

  18. ой люди , да забейте вы на тот роботекст ) и гугля и яшка вордпресс знают как облупленный , и пофиг что там в выдачу вылезет тег или пост лишь бы трафик был а он от роботекста независт нехрена . проверено опытом , проверял ради интереса на своей сетке блогов , практически идентичных (только контент уникальный везде) так вот изначально на всех блогах роботексты были дефолтные (а может и вообще не было хрен его знает , я лично ниче не делал) вот , потом думаю а давай на одном блоге поставлю правильный роботекст . поставил ясен пень вылетело все из выдачи осталось десяток страниц с постами , трафик упал ниже плинтуса с полторы тысячи до сотни ( это в день ) потом потихоньку начало возвращатся , но до прежних результатов так и не вернулось , вот такие пироги ) выводы делайте сами

  19. Здравствуйте,
    подскажите пожалуйста, эти две директивы чем отличаются:
    Disallow: /*?*
    Disallow: /?

    • Эта директива Disallow: /? запрещает индексировать страницы, в адресах которых есть знак вопроса после имени домена.
      Disallow: /*?* - а это вольное творчество владельцев сайтов.
      Не уверена, что робот индексатор это понимает.

  20. Здравствуйте,случайно наткнулся на ваш сайт и посмотрел свой robots - прямо страшно стало, дублей море.
    Подскажите, Disallow: /page/* поставил дубли типо: http://сайт.ru/page/2/убрал, но есть такое дело http://сайт.ru/vse-recepty/page/2/ как тут быть ?
    Зарание благодарю за ответ.

    • Знак * после page/ закроет от индексации все следующие страницы - и 2ю и 3ю и все прочие.

  21. Добрый день. Вы все понятно излагаете. У меня такая ситуации. Статьи проиндексированы, а сайт- нет. Может в Robots.txt , что- не то. Посмотрите, пожалуйста.
    User-agent: Mediapartners-Google*
    Disallow:
    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    User-agent: Yandex
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Host: lubovm.ru

    • Сравните свой robots.txt с примером, описанным в посте, и вы сами поймете, где у вас ошибки.

      • Я проверила до этого . У меня не описано правило Allow, но когда я проверяла в webmastere яндекса lubovm.ru , выдается сообщение "разрешен".

        • Значит, все нормально.
          Хотя у меня вызывает сомнение правильность таких конструкций - */*/feed/*/
          Но, по -видимому, Яндекс их понимает, если пишет, что нормально.

  22. Здравствуйте Людмила. Я уставила Вордпресс в папку "блог" на своем сайте. Получается такой адрес: www.mysite/blog. Куда в таком случае установить файл robots.txt для Вордпресс? В корень основного сайта или в сам Вордпресс? Если в корень сайта, то как прописать правила, если путь к папкам будет отличаться?

    • robots.txt кладете в корень сайта и прописываете в нем ВСЕ адреса, которые вы хотите закрыть от индексации, даже если они разные :).

  23. Подскажите пожалуйста, в Google webmasters указано, что мой файл robots.txt блокирует все страницы. Вот мой роботс:
    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /wp-
    Disallow: */trackback
    Disallow: */comment-
    Disallow: *?replytocom=
    Disallow: */feed
    Disallow: /?s=
    Disallow: /xmlrpc.php
    Disallow: /archives/date/
    Disallow: /archives/tag/
    Disallow: /archives/author/
    Disallow: /page/*
    Disallow: /tag/*
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /?
    Disallow: /404.php
    Disallow: /arxivy
    Allow: /wp-content/uploads/
    Host: site.ru
    Sitemap: http://site.ru/sitemap.xml
    User-agent: Googlebot-Image
    Allow: /wp-content/uploads/
    User-agent: YandexImages
    Allow: /wp-content/uploads/
    User-agent: ia_archiver
    Disallow: /
    Где же ошибка? Я составляла по этой статье, все проверила. Спасибо за помощь!

    • Я не вижу здесь ошибок.

    • А какое же имя Вашего хоста, Host: site.ru?

      • Да нет, Любовь. Просто не хочется обнародовать сайт.

  24. Тут Host: www.yourdomain.ru , лучше убрать www , иначе посторонним легко будет склеить домен

  25. а подскажите я бы хотел, что бы коментарии сайта индексировались, возможно это как-то коректно сделать, чтобы не было дублей

    • Комментарии и так индексируются.
      Закрывать от индексации нужно только ссылки в комментариях.

  26. Здравствуйте! Подскажите пожалуйста, как правильно закрывать страницы - Disallow: /page/ или Disallow: /page/*? У Вас в статье написано /page/ , а Юлии в комментарии выше Вы сказали,что /page/* правильно... И еще: надо ли закрывать тэги от индексации? Это хоть и дубли, но знаю,что многие не закрывают.

    • Disallow: /page/ и Disallow: /page/* - это одно и тоже.
      Касательно тегов - в первый год жизни сайта их лучше закрыть от индексации, а дальше можно открыть.

      • Спасибо за ответ) с тегами так и поступлю, пока что закрою. А еще подскажите пожалуйста, заметила,что в индексе индексируются страницы такого плана site.ru/2012/02/24/, site.ru/2012/02/19/, и еще вот такая страничка site.ru/author/admin/. Это нормально?

        • Нет. Это все разные типы архивов и их нужны закрыть от индексации.

  27. Ксана подскажите пожалуйста,удалила robots.txt,загружала на хост,решила проверить как удалила на сайте,а он есть,правда какой то маленький,через яндекс-то же самое.как мне его найти и удалить,чтоб загрузить новый

    • Файл robots.txt находится в корне сайта - там его и ищите.

  28. robot txt мне дали. Не могла понять, почему мой сайт не видит ни Яндекс, ни Googl. После проверки робота мне написали, что робот блокирует все страницы. Индексируется только главная страница. Извените, но я совсем не понимаю то, о чём вы пишете. Боюсь ещё хуже сделать, если залезу сама. Пожалуйста, поглядите на мой робот, что надо сделать, чтоб мой сайт увидели? Заранее благодарна вам! Ваш сайт просто находка для меня!!!
    ?User-agent: *
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /feed/
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */comments
    Disallow: /category/*/*
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /*?*
    Disallow: /?s=
    User-agent: Yandex
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /feed/
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */comments
    Disallow: /category/*/*
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /*?*
    Disallow: /?s=
    Host: info-siti.ru
    Sitemap: http://info-siti.ru/sitemap.xml.gz
    Sitemap: http://info-siti.ru/sitemap.xml

    • На мой взгляд, все нормально.

      • Мне пишут вот так: Индексирование страниц запрещено в вашем файле robots.txt.
        Робот видет только первую страницу. Не понимаю почему.

        • Я не вижу причины для этого.
          Вам лучше написать в техподдержку Яндекса и спросить их, где именно это запрещение.

  29. Здравствуйте, Людмила!
    Хотел бы уточнить 2 вопроса:
    1. У меня адрес архива по датам выводится в виде: Mysite/2012/.
    Будет ли правильной такая запись: Disallow: /2012/*
    Или можно написать это и так: Disallow: /20*/*
    2. Адрес 2-ой страницы в постраничной навигации такой: Mysite/page/2
    Если закрыть подобные записи от индексации ботами (Disallow: /page/*), то не получится ли, что боты не будут видеть ни одной страницы, кроме главной?
    Спасибо!

    • 1. Так Disallow: /2012/* лучше.
      2. Я не знаю структуры ссылок на вашем сайте, поэтому 2й вопрос ответить не могу.

Ответ на комментарий

Войти, чтобы написать отзыв.

Внимание: все отзывы проходят модерацию.

Топ комментаторов
АватарАватарАватарАватарАватарАватарАватарАватарАватарАватарАватарАватарАватарАватарАватарАватарАватарАватарАватарАватар
Самые комментируемые записи
Самые читаемые записи

Для того чтобы снять блок и увидеть скрытый контент или ссылку на закачку, подпишитесь на обновления блога.

В каждом письме публикуется код разблокировки.

Пользуйтесь кодом только из последних, пришедших вам на Email, писем. Закрыть »

Постов 204
Отзывов 5336