Как правильно составить robots.txt для сайта на wordpress
Автор: Ксана (Людмила Лунева) Веб-дизайнер и разработчик сайтов на wordpress
Начало статьи читайте здесь »
Файл robots.txt - это служебный файл, в котором можно указать роботам ПС (поисковых систем), какие разделы сайта индексировать, а какие нет. Сделать это можно с помощью специальных директив. Директивы можно написать для всех роботов одновременно или отдельно для робота каждой ПС.
Разделы, закрытые от индексации, не попадут в индекс поисковых систем.
Что такое Индекс?
Это база данных поисковой системы, в которой она хранит набор встречающихся на интернет-страницах слов и словосочетаний. Эта информация соотнесена с адресами тех веб-страниц, на которых она встречаются, и постоянно пополняется новой информацией, собираемой роботом-пауком поисковой системы.
Для того, чтобы сайт появлялся в выдаче поисковой системы по определенным запросам, он должен быть занесен в индекс этой поисковой системы.
Вообщем, robots.txt – это очень полезный и нужный любому сайту файл.
Общая для всех сайтов часть файла:
Итак, создаем текстовый документ с названием robots.txt и пишем в него следующее:
Если нужно, чтобы эти правила работали только для одного, конкретного робота, то вместо * указываем его имя (User-agent: Yandex, User-agent: Googlebot и т.д.).
Disallow:/cgi-bin/
Disallow: /cgi-bin/
Здесь мы запрещаем индексировать папку со скриптами.
Disallow: /wp- - Запрещает индексацию всех папок и файлов движка, начинающихся с wp- (т.е. папок /wp-admin/, /wp-includes/, /wp-content/ и всех файлов, расположенных в корневой папке).
Запрещаем индексацию комментариев, трекбеков и фида.
Спецсимвол * означает любую (в том числе пустую) последовательность символов, т.е. все, что находится в адресе до указанной части или после нее.
Disallow: /?s= - Запрещаем индексацию результатов поиска.
Allow: /wp-content/uploads/ - Разрешение индексировать папку uploads (а значит и расположенные в ней картинки).
Правило Яндекса для robots.txt гласит:
"Директивы Allow и Disallow из соответствующего User-agent блока сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для данной страницы сайта подходит несколько директив, то выбирается последняя в порядке появления в сортированном списке."
Получается, что директиву Аllow можно указать в любом месте.
Яндекс самостоятельно сортирует список директив и располагает их по длине префикса.
Google понимает Allow и вверху и внизу секции.
Касательно директивы Allow: /wp-content/uploads/ - поскольку, далее мы разрешаем индексировать роботам-индексаторам картинок папку с картинками, я не уверена, что эта директива нужна.
Но, наверное, лишней не будет. Так что, это - на ваше усмотрение.
Host: www.glavnoye-zerkalo.ru - Директива Host понимается только Яндексом и не понимается Гуглом.
В ней указывается главное зеркало сайта, в случае, если у вашего сайта есть зеркала. В поиске будет участвовать только главное зеркало.
Директиву Host лучше написать сразу после директив Disallow (для тех роботов, которые не полностью следуют стандарту при обработке robots.txt).
Для Яндекса директива Host являются межсекционной, поэтому будет найдена роботом не зависимо от того, где она указана в файле robots.txt.
Важно: Директива Host в файле robots.txt может быть только одна.
В случае указания нескольких директив, использоваться будет первая.
Sitemap: http://mysite.ru/sitemaps.xml - Указываем путь к файлу sitemaps.xml
Для Яндекса и Google Sitemap - это межсекционная директива, но лучше написать ее в конце через пустую строку. Так она будет работать для всех роботов сразу.
Разрешает роботам Googlebot и YandexImages индексировать наши картинки.
User-agent: ia_archiver
Disallow:/
User-agent: ia_archiver
Disallow: /
Полностью запрещаем роботу веб архива индексацию нашего сайта.
Это предупредительная мера, которая защитит сайт от массового парсинга контента через веб архив.
Итак, мы рассмотрели стандартную часть файла robots.txt, которая подойдет для любого сайта на wordpress.
Но, нам нужно спрятать от роботов-индексаторов еще некоторые разделы сайта, в частности, те, которые создают дублированный контент - разного рода архивы.
Индивидуальные настройки:
Если на вашем сайте есть система древовидных комментариев, как на моем блоге, тогда нужно запретить индексацию таких адресов:
*?replytocom=
Их создает кнопка (ссылка) "Ответить на комментарий".
Страницы архивов на разных сайтах имеют различные адреса, в зависимости от того, как формируются URL на сайте, включены ли ЧПУ или нет.
Как определить адреса архивов вашего сайта?
Для этого нужно открыть архив любого месяца и посмотреть, как выглядит адрес страницы архива.
Он может выглядеть, например, так: http://sait.ru/archives/date/post-1.
В этом случае, выделяем общую для всех архивов по дате часть адреса: /archives/date/.
Соответственно, в файле robots.txt указываем: Disallow: /archives/date/*
Будьте внимательны - у вас архивы могут иметь другие адреса.
Например, архив года может иметь такой адрес: http://sait.ru/2012
Тогда закрывать нужно эту часть - /2012/
Напоминаю, что спецсимвол * означает любую последовательность символов, т.е. все, что находится в адресе далее.
Точно так же определяем адреса архивов тегов и архивов автора.
И закрываем их в robots.txt.
Рекомендую архивы тегов закрыть примерно на полгода-год, (если у вас молодой сайт) пока он стабильно пропишется в поисковой выдаче.
После этого срока архивы тегов стоит открыть для индексации, так как по наблюдениям, на страницы тегов по поисковым запросам приходит значительно больше посетителей, чем на страницы постов, к которым эти теги созданы.
Но, не добавляйте к постам много тегов, иначе вашему сайту будут грозить санкции за дублированный контент.
Один-два (редко три) тега к одному посту вполне достаточно.
Можно, также, закрыть индексацию всех главных страниц, кроме первой.
Обычно, их адреса выглядят так: http://sait.ru/page/2, http://sait.ru/page/3 и т. д., но лучше проверить.
Перейдите по ссылкам навигации внизу Главной страницы на вторую страницу и посмотрите, как выглядит ее адрес в адресной строке.
Закрываем эти страницы: Disallow: /page/*
Иногда, на сайте требуется закрыть от индексации еще какие то страницы или папки. В этом случае, действуете аналогично - открываете в браузере нужную вам страницу и смотрите ее адрес. А дальше закрываете его в robots.txt.
Учтите, что если вы закрываете, например, папку "book", то автоматически закроются и все файлы, расположенные в этой папке.
Если закрыть страницу, в URL'е которой есть, например, "news" так: */news/,
то закроются и страницы /news/post-1 и /category/news/.
robots.txt полностью ↓
Открыть ↓
Справка:
Подробности составления robots.txt можно изучить на странице помощи Яндекса - http://help.yandex.ru/webmaster/?id=996567
Проверить правильность составления файла можно в webmaster.yandex - Настройка индексирования - Анализ robots.txt
В Google robots.txt можно проверить по этой ссылке: https://www.google.com/webmasters/tools/crawl-access?hl=ru&siteUrl=http://site.ru/
Проверяемый сайт должен быть добавлен в панель веб-мастера. P.S. Для Яндекса и Google правила составления robots.txt немного различаются.
Толкование правил составления robots.txt можно прочитать здесь - http://robotstxt.org.ru
К сожалению, проверить можно только синтаксис.
Правильно ли вы закрыли от индексации разделы сайта, покажет только время :).
Ну вот и все - файл robots.txt готов, осталось только загрузить его в корневой каталог нашего сайта.
Напоминаю, что корневой каталог это папка в которой находится файл config.php.
И последнее - все, сделанные вами изменения в robots.txt, будут заметны на сайте только спустя несколько месяцев.
В тему:
Однажды видела сайт на wordpress, на котором не было файла robots.txt.
Этот сайт некоторое время простоял пустым - т.е. с одной стандартной записью, которая по умолчанию присутствует в wordpress.
Представьте себе, какой шок испытал владелец сайта, когда обнаружил, что Яндекс проиндексировал 2 страницы с контентом и больше тысячи страниц самого движка 🙂
На этой веселой ноте заканчиваю.
День добрый, хочу обратиться к Вам за помощью. С моим сайтом возникла проблема, яндекс не под каким предлогом не хочет заходить на мой сайт, он его вообще не видит пишет что нет такого сайта. Что могло случиться ведь пару дней назад все было хорошо...
А потом резко начал падать в рейтинге, а теперь ни рейтинга не заходов с яндекса вообще нет!!! Если можете подскажите что не так могло пойти.
Вообще то хоть немножко разобралась благодаря вам... Тяжело живется чайнкам... А то трафик упал конкретно, может от того, что у меня очень много звуковых файлов, у меня аудио уроки английского. Может папку аудио тоже закрыть?
Файл robots.txt доступен для просмотра любому пользователю интернета, достаточно набрать в адресной строке сайт.ru/robots.txt и сможете посмотреть robots.txt у любого сайта. Смотрите как прописаны директивы у популярных блогов на СMS WordPress и учитесь. :))
Правильно ли вы закрыли от индексации разделы сайта, покажет только время
проверка на http://www.siteliner.com/ показала, что мой робот никуда не годится
54% дубля, robots txt брал правда в другом месте
теперь воспользовался предложенным Вами,и сразу возникает вопрос
у меня категории разделены на под категории
то есть, есть категория Дома, и есть подкатегории 1 комнатные дома, 2х комнатные дома и т.д.
Если категории оставить открытыми, а подкатегории закрыть, в роботе нужно прописать так?
Disallow: /2x-komnatnye-doma/*
Disallow: /1-komnatnye-doma/*
или как то по другому ?
и еще...в роботе я прописал Disallow: /tag/*
при оптимизации темы, по предложенному Вами методу http://prodengiblog.ru/archives/2294
это не повредит ?
пока категории оставил закрытыми..от греха подальше.
Все зависит от того, как у вас на сайте формируются адреса записей.
Если в адресе записи есть название подкатегории, тогда Disallow: /2x-komnatnye-doma/* закроет все записи в этой категории.
в роботе я прописал Disallow: /tag/*
Теги стоит закрывать, если вы добавляете к каждой записи много меток.
Если добавляете одну метку, их можно не закрывать.
Значит если адрес записи выглядит так
http://мой сайт.ru/category/evpatoriya-doma/2x-komnatnye-doma
то категория дома закроется полностью ?
получается,что единственный выход,это избавляться от под категорий,которые создают дубли,и сваливать всю инфу в кучу.
а ведь для пользователей удобней когда все разложено по полочкам
или закрывать категории вовсе от индексации
Метки,как Вы и советовали я проставил по 1-2,ну и иногда реже три.
Сайт новый,ему только месяц с небольшим
пока решил проблему удалением под категорий
меток проставил по одной,и открыл в роботе
также открыл и категории,интересно,а сейчас будет много дублей ?
как теперь мне поступить с не существующими ссылками оставшимися после удаления под категорий ?
подать запрос на удаление в гугл вебмастер,или как читал в интернетах
"само отвалится "?
Здравствуйте.
вышел к вам из поисковика по ia_archiver
Есть у меня форум.
хотелось бы, чтобы главная страница и страницы разделов были в базе arhive.org
а страницы тем (их очень много), чтобы были удалены из их базы.
структура страниц такая:
эти страницы нужны в их базе
myforum.com
myforum.com/forum1.html
myforum.com/forum2.html
myforum.com/forum3.html
эти страницы не нужны:
myforum.com/topic1.html
myforum.com/topic2.html
myforum.com/topic3.html
...
myforum.com/topic99999.html
сделал так:
User-agent: ia_archiver
Disallow: /topic
вроде норм? как считаете?
для яндекса и гугла такое срабатывало.
чтобы не прописывать все страницы одной темы в роботсе
http://myforum.com/topic123s0.html
http://myforum.com/topic123s15.html
http://myforum.com/topic123s30.html
делал так
User-agent: *
Disallow: /topic123
и норм.
А зачем вы посвятили так много строк фиду?
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: */*/feed
Disallow: /?feed=
Неужели ваш фид открывается по всем этим адресам :)?
Честно говоря, я не знаю о фидах ничего (где-то скопировал робот). Вы не могли бы мне прислать правильно оформленный файл robots.txt. Я подписался у вас на рассылку.
В таком случае подскажите, пожалуйста, как с помощью robots.txt запретить индексация ссылок с такими тегами:
/#comment-1336
/novosti/page/2
#respond
Ксана | 2013.12.27 в 23:49
Url'ы со знаком # закрывать от индексирования не нужно. Поисковые роботы и так не индексируют то, что идет после знака #.
Этот url можно закрыть так:
Disallow: /novosti/page/
Бронислав | 2013.12.26 в 16:01
Ксана, здравствуйте!
Помогите пожалуйста разобраться, я обнаружил, что у меня индексируется почти на половину больше материала чем есть на самом деле. Опубликовано 485, а индексируется 952. В яндекс вебмастер обнаружил, что в индексе много ссылок тегов и дублей страниц, что лучше предпринять?
Робот txt собирал по Вашим материалам, может, что-то где-то не понял и не так прописал. Искал вчера ответ, посоветовали - Disallow: /tag/ , а смотрю в txt есть похожая строка - /archives/tag/* - это не тоже самое?
Вот мой txt
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /wp-*
Disallow: */trackback
Disallow: */comments
Disallow: */comment-*
Disallow: */feed
Disallow: /?s=
Disallow: /xmlrpc.php
Disallow: /archives/date/*
Disallow: /blog/2012/
Disallow: /blog/2013/
Disallow: /archives/tag/*
Disallow: /archives/author/*
Disallow: /page/*
Host: content-bis.com.ru
Sitemap: http://content-bis.com.ru/sitemap.xml
Sitemap: http://content-bis.com.ru/sitemap.xml.gz
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: YandexImages
Allow: /wp-content/uploads/
User-agent: ia_archiver
Disallow: /
Спасибо!
С наступающим Вас Новым Годом, Ксана!
Это одно и то же, но все зависит от того, какие адреса имеют теги на вашем сайте.
Откройте страницу тега и посмотрите, а потом укажите адрес тега в robots.txt.
Тоесть, мне закрывать так все теги в робот txt, а общего варианта нет? Вот например в статье "В Японии разработали искусственную эмаль зуба" есть тег "эмаль зуба", а ссылка выглядит вот так "http://content-bis.com.ru/tag/emal-zuba/", как тогда поступать?
Вера, в этом посте я подробно рассказала, как настроить файл robots.txt.
Не нужно присылать мне простыни кода из вашего robots.txt - просто прочитайте статью еще раз и сделайте все, что там написано.
Скажите, а вот такой вид мало?
Если мне робот выдает такой список это не достаточно?
Робот же по сайтмепу может лазить или нужно прописывать все строки, категории?
User-agent: *
Disallow: /wp-admin/
Sitemap: http://pret-a-portrait.ru/sitemap.xml
Дело в том, что я ничего не собираюсь скрывать.
Может быть хотя бы и потому, что не знаю, зачем что-то скрывать и для чего???
Скажите просто, что мне должно или Вам говорит эта статистика?
User-agent: *
Disallow: /wp-admin/
Sitemap: http://pret-a-portrait.ru/sitemap.xml
Нужно ли что-то менять или добавлять?
Правильно ли я понимаю, раз индексируется сайтмеп, то все страницы сайта проходят индексацию?
Игорь Черноморец | 2014.10.29 в 17:21
(подписан на отзывы)
Здравствуйте Ксана! Пришёл к вам из Гугла по запросу как исключить индексацию comment-subscriptions
В принципе я знал, что можно было закрыть это через фай robots.txt, но...в этом случае гугл будет по любому захватывать эти ссылки в сопли и соответственно появляются дубли! Думаю что надо закрыть их через meta robots noindex,nofollow в файле function.php
Как вы думаете, я прав или у вас другое мнение? Вы наверно читали две статьи от Александра Борисова по поводу дублей страниц?
Заранее спасибо
Я думаю, что проблема с индексацией комментариев - это паранойя :).
Проиндексированные комменты попадают в дополнительный индекс, это значит, что Google прекрасно понимает, что он индексирует и ценность этого.
Я не заморачиваюсь с индексацией комментариев и вам не советую.
Игорь Черноморец | 2014.10.30 в 12:32
(подписан на отзывы)
Спасибо Ксана, но я не имел ввиду индексацию комментариев, а имел ввиду ссылки с подписками на уведомления комментариев!
Просто, в аналитике от гугла, мне показаны все подписки моих комментаторов обозначены как ошибки 404. Не знаю почему гугл взял в индекс сами подписки - comment-subscriptions
Вы можете сами ответить на этот вопрос.
Представьте, что в адресе вашего сайта есть /comment-
и /comments и вы закрываете от индексации страницы, которые содержат такие адреса.
Здравствуйте!
Спасибо за полезную статью. Теперь знаю, что для моего сайта сделали неправильный файл robots.txt . Поэтому просьба разъяснить следующее:
1. На сайте с WordPress с ЧПУ мне нужно закрыть от индексации наряду со служебными разделами WP также результаты поиска по сайту и дубли. Если написать в robots.txt эти две директивы:
Disallow: /?s=
Disallow: /*?*
то не будут ли исключены из индекса нужные мне УРЛы, в адресах которых присутствует буква «s» ?
2. Мой сайт создан не для блога, на нем нет регистрации для посетителей, соответственно нет логин / пароль для входа, нет возможности для комментариев и т.д. В таком случае нужны ли вообще в robots.txt эти директивы во всех вариациях:
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /trackback
Disallow: /trackback/
Disallow: */trackback
Disallow: */trackback/
Disallow: */*/trackback
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /?feed=
Disallow: /comments/
Disallow: */comments/
Если нужны, то какие именно?
Заранее спасибо.
1. Если в адресах есть буква S после знака вопроса, то будут. Остальные - нет.
2. Введите в адресную строку эти ссылки и проверьте, есть ли они на вашем сайте.
Здравствуйте, Людмила!
Ещё один вопрос, на который не могу найти ответ. Был бы благодарен за Ваше мнение. Напомню, что мой сайт - не блог, а сайт небольшого агентства недвижимости.
Сайт на WordPress, подкорректировал robots согласно рекомендациям, а также примерам на различных сайтах. Наряду с прочими директивами имеются и вот эти:
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Проверяю мои страницы в webmaster Гугла в разделе "Посмотреть как Googlebot". При таком robors на страницах отображаются только тексты, то есть сайт выглядит как полу-фабрикат. А фотографии, дизайн, элементы оформления, таблицы и т.д. не видны. Указываетя, что блокировка этих элементов происходит из-за директив:
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
В этой связи вопрос. Так и должно быть, что сайт выглядит для поисковиков усеченным? Или всё же он будет понижен в результатах выдачи поисковиков из-за того, что он выглядит в их глазах ущербным?
Сергей К.
Здравствуйте!
Подскажите пожалуйста, а то я никак разобраться не могу. Зачем закрывать от индексации папку wp-content. Там ведь расположена тема, с которой я работаю, соответственно и файлы functions.php, loop-single.php, header.php и т.д.
И почему многие пишут /wp-content/themes. Правильно же так /wp-content/themes/ (с чертой на конце)
Здравствуйте.
У наст тема Infobiz премиум.
1) В описании указано, что в теме уже закрыт весь дублированный контент. Означает ли это что: уже запрещены древовидные комментарии, архивы (в том числе тегов и автора), /page/*?
2) Правильно ли мы пониманием, что следует запретить индексировать папку со скриптами, плагинами, веб архив, всех папок и файлов движка, начинающихся с wp- , трекбеков и фида, результаты поиска?
3) Каким роботам Вы рекомендуете разрешить индексацию: Яндекс, Mail.Ru, Rambler, Google, Google Картинки, Google Мобильный, Aport, MSN Поиск, MSN Картинки, Yahoo.
4) Какую задержку Вы рекомендуете установить для индексации роботами: от 5 до 120 сек.
Заранее спасибо за ответы.
1) В описании указано, что в теме уже закрыт весь дублированный контент. Означает ли это что: уже запрещены древовидные комментарии, архивы (в том числе тегов и автора), /page/*?
В теме закрыто то, что возможно закрыть в теме - ссылки на страницы с дублированным контентом.
Но, подумайте сами, как можно в теме закрыть от индексации то, что должно находиться в robots.txt?
2) Правильно ли мы пониманием, что следует запретить индексировать папку со скриптами, плагинами, веб архив, всех папок и файлов движка, начинающихся с wp- , трекбеков и фида, результаты поиска?
Да, правильно.
3) Каким роботам Вы рекомендуете разрешить индексацию: Яндекс, Mail.Ru, Rambler, Google, Google Картинки, Google Мобильный, Aport, MSN Поиск, MSN Картинки, Yahoo.
Роботам тех ПС, которые вы хотите, чтобы индексировали сайт.
4) Какую задержку Вы рекомендуете установить для индексации роботами: от 5 до 120 сек.
День добрый, хочу обратиться к Вам за помощью. С моим сайтом возникла проблема, яндекс не под каким предлогом не хочет заходить на мой сайт, он его вообще не видит пишет что нет такого сайта. Что могло случиться ведь пару дней назад все было хорошо...
А потом резко начал падать в рейтинге, а теперь ни рейтинга не заходов с яндекса вообще нет!!! Если можете подскажите что не так могло пойти.
Могло произойти все, что угодно.
Для того, чтобы понять в чем причина, нужно провести анализ сайта. вы можете заказать аудит сайта здесь.
Вообще то хоть немножко разобралась благодаря вам... Тяжело живется чайнкам... А то трафик упал конкретно, может от того, что у меня очень много звуковых файлов, у меня аудио уроки английского. Может папку аудио тоже закрыть?
Здравствуйте Ксана. Сможете может помочь? Вот мне одна школа на бесплатном курсе дала такой файл робота. Поисковики, поначалу индексировали, потом пишут, что робот запрещает???....
Спасибо...
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
Host: v-zerkale-zizni.ru
Sitemap: http://v-zerkale-zizni.ru/sitemap.xml.gz
Sitemap: http://v-zerkale-zizni.ru/sitemap.xml
Попробуйте открыть для индексации категории, для этого удалите эту строку:
Disallow: /category/*/*
Больше ничего спорного я не вижу.
Файл robots.txt доступен для просмотра любому пользователю интернета, достаточно набрать в адресной строке сайт.ru/robots.txt и сможете посмотреть robots.txt у любого сайта. Смотрите как прописаны директивы у популярных блогов на СMS WordPress и учитесь. :))
Добрый день!
Подскажите, у меня все хорошо, или лучше переделать? Спасибо!
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Host: supermouce.ru
Sitemap: http://supermouce.ru/sitemap.xml.gz
Sitemap: http://supermouce.ru/sitemap.xml
Привет Ксана
проверка на http://www.siteliner.com/ показала, что мой робот никуда не годится
54% дубля, robots txt брал правда в другом месте
теперь воспользовался предложенным Вами,и сразу возникает вопрос
у меня категории разделены на под категории
то есть, есть категория Дома, и есть подкатегории 1 комнатные дома, 2х комнатные дома и т.д.
Если категории оставить открытыми, а подкатегории закрыть, в роботе нужно прописать так?
Disallow: /2x-komnatnye-doma/*
Disallow: /1-komnatnye-doma/*
или как то по другому ?
и еще...в роботе я прописал Disallow: /tag/*
при оптимизации темы, по предложенному Вами методу http://prodengiblog.ru/archives/2294
это не повредит ?
пока категории оставил закрытыми..от греха подальше.
Все зависит от того, как у вас на сайте формируются адреса записей.
Если в адресе записи есть название подкатегории, тогда Disallow: /2x-komnatnye-doma/* закроет все записи в этой категории.
Теги стоит закрывать, если вы добавляете к каждой записи много меток.
Если добавляете одну метку, их можно не закрывать.
Значит если адрес записи выглядит так
http://мой сайт.ru/category/evpatoriya-doma/2x-komnatnye-doma
то категория дома закроется полностью ?
получается,что единственный выход,это избавляться от под категорий,которые создают дубли,и сваливать всю инфу в кучу.
а ведь для пользователей удобней когда все разложено по полочкам
или закрывать категории вовсе от индексации
Метки,как Вы и советовали я проставил по 1-2,ну и иногда реже три.
Можно исправить URL'ы записей так, чтобы в них не присутствовали названия категорий.
Но, это, если сайт новый.
Сайт новый,ему только месяц с небольшим
пока решил проблему удалением под категорий
меток проставил по одной,и открыл в роботе
также открыл и категории,интересно,а сейчас будет много дублей ?
как теперь мне поступить с не существующими ссылками оставшимися после удаления под категорий ?
подать запрос на удаление в гугл вебмастер,или как читал в интернетах
"само отвалится "?
Само :).
Здравствуйте.
вышел к вам из поисковика по ia_archiver
Есть у меня форум.
хотелось бы, чтобы главная страница и страницы разделов были в базе arhive.org
а страницы тем (их очень много), чтобы были удалены из их базы.
структура страниц такая:
эти страницы нужны в их базе
myforum.com
myforum.com/forum1.html
myforum.com/forum2.html
myforum.com/forum3.html
эти страницы не нужны:
myforum.com/topic1.html
myforum.com/topic2.html
myforum.com/topic3.html
...
myforum.com/topic99999.html
сделал так:
User-agent: ia_archiver
Disallow: /topic
вроде норм? как считаете?
для яндекса и гугла такое срабатывало.
чтобы не прописывать все страницы одной темы в роботсе
http://myforum.com/topic123s0.html
http://myforum.com/topic123s15.html
http://myforum.com/topic123s30.html
делал так
User-agent: *
Disallow: /topic123
и норм.
Здравствуйте, Ксана! Помогите пожалуйста разобраться, поставил предложенный в статье robots.txt а при проверке его здесь - http://webmaster.yandex.ua/robots.xml#results были выявлены такие ошибки:
1-15
User-agent: *
Disallow: /cgi-bin/
...
Host: content-bis.com.ru
17-17 Sitemap: http://content-bis.com.ru/sitemap.xml
Что не так, помогите разобраться?
Сам robots.txt
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-
Disallow: */trackback
Disallow: */comment-
Disallow: *?replytocom=
Disallow: */feed
Disallow: /?s=
Disallow: /xmlrpc.php
Disallow: /archives/date/
Disallow: /archives/tag/
Disallow: /archives/author/
Disallow: /page/
Allow: /wp-content/uploads/
Host: content-bis.com.ru
Sitemap: http://content-bis.com.ru/sitemap.xml
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: YandexImages
Allow: /wp-content/uploads/
User-agent: ia_archiver
Disallow: /
Это не ошибки, это используемые роботом Яндекса строки :).
Ксана, я опять с вопросом
я решил продвигать категории, если я в роботе пропишу
Disallow: /category/*
то перекрою дубли (2, 3, 4 стр категорий)?
Если вы так напишете, то закроете, вообще, все категории :).
/Здравствуйте. Помогите пожалусто с робот текстом. Яндекс проиндексирвал только сам сайт а страницы не одной что тут не так я в этом совсем не понимаю
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
В посте есть пример файла robots.txt - воспользуйтесь им.
это тот что в самом начале???
или то что открывается с помощью кода?
Да.
Тот, что открывается с помощью кода.
а вы не подскажите как узнать находится ли наш сайт под фильтром у гугла и яндекса???
Прочитайте этот пост и поймете.
Здравствуйте, Ксана! У меня такая проблема. После того, как обнаружил на сайте большую заспамленность ссылками, переделал robots.txt. До этого страницы моментально индексировал Яндекс, а теперь перестал, хотя в Яндекс.Вебмастере стоит отметка "разрешен". Вот мой новый robots.txt:
User-agent: Mediapartners-Google
Disallow:
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /comment-subscriptions*
Disallow: /tag/
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: */*/feed
Disallow: /?feed=
Disallow: /*?*
Disallow: /?s=
Disallow: /20*/*
Disallow: /page/*
Disallow: /comment-page*
Disallow: /*/?replytocom=*
Disallow: */attachment/
Allow: /wp-content/uploads/
Sitemap: http://narodnaiamedicina.ru/sitemap.xml.gz
Sitemap: http://narodnaiamedicina.ru/sitemap.xml
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /comment-subscriptions*
Disallow: /tag/
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: */*/feed
Disallow: /?feed=
Disallow: /*?*
Disallow: /?s=
Disallow: /20*/*
Disallow: /page/*
Disallow: /comment-page*
Disallow: */attachment/
Allow: /wp-content/uploads/
Host: narodnaiamedicina.ru
Sitemap: http://narodnaiamedicina.ru/sitemap.xml.gz
Sitemap: http://narodnaiamedicina.ru/sitemap.xml
А зачем вы посвятили так много строк фиду?
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: */*/feed
Disallow: /?feed=
Неужели ваш фид открывается по всем этим адресам :)?
Честно говоря, я не знаю о фидах ничего (где-то скопировал робот). Вы не могли бы мне прислать правильно оформленный файл robots.txt. Я подписался у вас на рассылку.
К сожалению, нет. Индивидуальные заказы выполняются за оплату.
В таком случае подскажите, пожалуйста, как с помощью robots.txt запретить индексация ссылок с такими тегами:
/#comment-1336
/novosti/page/2
#respond
Url'ы со знаком # закрывать от индексирования не нужно. Поисковые роботы и так не индексируют то, что идет после знака #.
Этот url можно закрыть так:
Disallow: /novosti/page/
Ксана, здравствуйте!
Помогите пожалуйста разобраться, я обнаружил, что у меня индексируется почти на половину больше материала чем есть на самом деле. Опубликовано 485, а индексируется 952. В яндекс вебмастер обнаружил, что в индексе много ссылок тегов и дублей страниц, что лучше предпринять?
Робот txt собирал по Вашим материалам, может, что-то где-то не понял и не так прописал. Искал вчера ответ, посоветовали - Disallow: /tag/ , а смотрю в txt есть похожая строка - /archives/tag/* - это не тоже самое?
Вот мой txt
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /wp-*
Disallow: */trackback
Disallow: */comments
Disallow: */comment-*
Disallow: */feed
Disallow: /?s=
Disallow: /xmlrpc.php
Disallow: /archives/date/*
Disallow: /blog/2012/
Disallow: /blog/2013/
Disallow: /archives/tag/*
Disallow: /archives/author/*
Disallow: /page/*
Host: content-bis.com.ru
Sitemap: http://content-bis.com.ru/sitemap.xml
Sitemap: http://content-bis.com.ru/sitemap.xml.gz
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: YandexImages
Allow: /wp-content/uploads/
User-agent: ia_archiver
Disallow: /
Спасибо!
С наступающим Вас Новым Годом, Ксана!
Это одно и то же, но все зависит от того, какие адреса имеют теги на вашем сайте.
Откройте страницу тега и посмотрите, а потом укажите адрес тега в robots.txt.
Тоесть, мне закрывать так все теги в робот txt, а общего варианта нет? Вот например в статье "В Японии разработали искусственную эмаль зуба" есть тег "эмаль зуба", а ссылка выглядит вот так "http://content-bis.com.ru/tag/emal-zuba/", как тогда поступать?
Не все теги :), а общая часть URL'а тега:
Disallow: /tag/
Спасибо, Ксана! С наступающим Вас Новым Годом!
Здравствуйте Ксана! У меня проблемы с индексированием сайта, то архивы индексируются, то не все страницы попадают в индексацию, некоторые страницы вообще выпали из яндекса. Подскажите пожалуйста, в чем ошибки. Вот мой robots.txt:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
Host: receptya.ru
Sitemap: http://receptya.ru/sitemap.xml.gz
Sitemap: http://receptya.ru/sitemap.xml
Вера, в этом посте я подробно рассказала, как настроить файл robots.txt.
Не нужно присылать мне простыни кода из вашего robots.txt - просто прочитайте статью еще раз и сделайте все, что там написано.
Очень помогла данная статья и ответы в комментариях!
Спасибо большое!
Поправил свой robots.txt
Буду ждать теперь индексации.
Здравствуйте. Подскажите как сделать, чтоб индексировалась страница моего сайта с фотографиями (http://kovkavolgograd.ru/?page_id=30)?
С Ув.
Купить на нее ссылки с хороших сайтов.
Странно, стоит в роботс Disallow: /?s=, но если проверить в вебмастере яндекса, результат поиска, то пишет что разрешён...
Скажите, а вот такой вид мало?
Если мне робот выдает такой список это не достаточно?
Робот же по сайтмепу может лазить или нужно прописывать все строки, категории?
User-agent: *
Disallow: /wp-admin/
Sitemap: http://pret-a-portrait.ru/sitemap.xml
Зависит от того, что именно вы хотите скрыть от индексации.
В посте приведен robots.txt, который я рекомендую для сайта на wordpress.
Дело в том, что я ничего не собираюсь скрывать.
Может быть хотя бы и потому, что не знаю, зачем что-то скрывать и для чего???
Скажите просто, что мне должно или Вам говорит эта статистика?
User-agent: *
Disallow: /wp-admin/
Sitemap: http://pret-a-portrait.ru/sitemap.xml
Нужно ли что-то менять или добавлять?
Правильно ли я понимаю, раз индексируется сайтмеп, то все страницы сайта проходят индексацию?
Ваш код Disallow: /wp-admin/
скрывает от индексации админку сайта и больше ничего.
Здравствуйте Ксана! Пришёл к вам из Гугла по запросу как исключить индексацию comment-subscriptions
В принципе я знал, что можно было закрыть это через фай robots.txt, но...в этом случае гугл будет по любому захватывать эти ссылки в сопли и соответственно появляются дубли! Думаю что надо закрыть их через meta robots noindex,nofollow в файле function.php
Как вы думаете, я прав или у вас другое мнение? Вы наверно читали две статьи от Александра Борисова по поводу дублей страниц?
Заранее спасибо
Я думаю, что проблема с индексацией комментариев - это паранойя :).
Проиндексированные комменты попадают в дополнительный индекс, это значит, что Google прекрасно понимает, что он индексирует и ценность этого.
Я не заморачиваюсь с индексацией комментариев и вам не советую.
Спасибо Ксана, но я не имел ввиду индексацию комментариев, а имел ввиду ссылки с подписками на уведомления комментариев!
Просто, в аналитике от гугла, мне показаны все подписки моих комментаторов обозначены как ошибки 404. Не знаю почему гугл взял в индекс сами подписки - comment-subscriptions
Никогда на это не обращала внимание.
Подскажите пожалуйста, а в чем разница между ?
Disallow: */comment-
и
Disallow: */comments
Вы можете сами ответить на этот вопрос.
Представьте, что в адресе вашего сайта есть /comment-
и /comments и вы закрываете от индексации страницы, которые содержат такие адреса.
Здравствуйте!
Спасибо за полезную статью. Теперь знаю, что для моего сайта сделали неправильный файл robots.txt . Поэтому просьба разъяснить следующее:
1. На сайте с WordPress с ЧПУ мне нужно закрыть от индексации наряду со служебными разделами WP также результаты поиска по сайту и дубли. Если написать в robots.txt эти две директивы:
Disallow: /?s=
Disallow: /*?*
то не будут ли исключены из индекса нужные мне УРЛы, в адресах которых присутствует буква «s» ?
2. Мой сайт создан не для блога, на нем нет регистрации для посетителей, соответственно нет логин / пароль для входа, нет возможности для комментариев и т.д. В таком случае нужны ли вообще в robots.txt эти директивы во всех вариациях:
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /trackback
Disallow: /trackback/
Disallow: */trackback
Disallow: */trackback/
Disallow: */*/trackback
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /?feed=
Disallow: /comments/
Disallow: */comments/
Если нужны, то какие именно?
Заранее спасибо.
1. Если в адресах есть буква S после знака вопроса, то будут. Остальные - нет.
2. Введите в адресную строку эти ссылки и проверьте, есть ли они на вашем сайте.
Большое спасибо, Людмила, за быстрый и понятный ответ. Очень помогли мне. Всего Вам доброго.
Сергей
Здравствуйте, Людмила!
Ещё один вопрос, на который не могу найти ответ. Был бы благодарен за Ваше мнение. Напомню, что мой сайт - не блог, а сайт небольшого агентства недвижимости.
Сайт на WordPress, подкорректировал robots согласно рекомендациям, а также примерам на различных сайтах. Наряду с прочими директивами имеются и вот эти:
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Проверяю мои страницы в webmaster Гугла в разделе "Посмотреть как Googlebot". При таком robors на страницах отображаются только тексты, то есть сайт выглядит как полу-фабрикат. А фотографии, дизайн, элементы оформления, таблицы и т.д. не видны. Указываетя, что блокировка этих элементов происходит из-за директив:
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
В этой связи вопрос. Так и должно быть, что сайт выглядит для поисковиков усеченным? Или всё же он будет понижен в результатах выдачи поисковиков из-за того, что он выглядит в их глазах ущербным?
Сергей К.
Что нужно сделать в такой ситуации?
Здравствуйте!
Подскажите пожалуйста, а то я никак разобраться не могу. Зачем закрывать от индексации папку wp-content. Там ведь расположена тема, с которой я работаю, соответственно и файлы functions.php, loop-single.php, header.php и т.д.
И почему многие пишут /wp-content/themes. Правильно же так /wp-content/themes/ (с чертой на конце)
Да, правильно именно так, но робот-индексатор понимает и без слеша.
User-agent: *
Allow: /$
Allow: /*?page
Allow: /*?ref=
Allow: /stat/
Disallow: /*?
Disallow: /index/1
Disallow: /index/3
Disallow: /register
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /index/sub/
Disallow: /panel/
Disallow: /admin/
Disallow: /informer/
Disallow: /secure/
Disallow: /poll/
Disallow: /search/
Disallow: /abnl/
Disallow: /*_escaped_fragment_=
Disallow: /*-*-*-*-987$
Disallow: /shop/checkout/
Disallow: /shop/user/
Disallow: /*0-*-0-17$
Host: www.мой сайт
Sitemap: http://мой сайт/sitemap.xml
Скажите пожалуйста. Стоит ли мне закрыть первые 4 пункта? или оставить так Allow?
Здравствуйте.
У наст тема Infobiz премиум.
1) В описании указано, что в теме уже закрыт весь дублированный контент. Означает ли это что: уже запрещены древовидные комментарии, архивы (в том числе тегов и автора), /page/*?
2) Правильно ли мы пониманием, что следует запретить индексировать папку со скриптами, плагинами, веб архив, всех папок и файлов движка, начинающихся с wp- , трекбеков и фида, результаты поиска?
3) Каким роботам Вы рекомендуете разрешить индексацию: Яндекс, Mail.Ru, Rambler, Google, Google Картинки, Google Мобильный, Aport, MSN Поиск, MSN Картинки, Yahoo.
4) Какую задержку Вы рекомендуете установить для индексации роботами: от 5 до 120 сек.
Заранее спасибо за ответы.
В теме закрыто то, что возможно закрыть в теме - ссылки на страницы с дублированным контентом.
Но, подумайте сами, как можно в теме закрыть от индексации то, что должно находиться в robots.txt?
Да, правильно.
Роботам тех ПС, которые вы хотите, чтобы индексировали сайт.
30"