Начало статьи читайте здесь »
Файл robots.txt - это служебный файл, в котором можно указать роботам ПС (поисковых систем), какие разделы сайта индексировать, а какие нет. Сделать это можно с помощью специальных директив. Директивы можно написать для всех роботов одновременно или отдельно для робота каждой ПС.
Разделы, закрытые от индексации, не попадут в индекс поисковых систем.

Что такое Индекс?
Это база данных поисковой системы, в которой она хранит набор встречающихся на интернет-страницах слов и словосочетаний. Эта информация соотнесена с адресами тех веб-страниц, на которых она встречаются, и постоянно пополняется новой информацией, собираемой роботом-пауком поисковой системы.
Для того, чтобы сайт появлялся в выдаче поисковой системы по определенным запросам, он должен быть занесен в индекс этой поисковой системы.
Вообщем, robots.txt – это очень полезный и нужный любому сайту файл.
Общая для всех сайтов часть файла:
Итак, создаем текстовый документ с названием robots.txt и пишем в него следующее:
User-agent: * Disallow: /cgi-bin/ Disallow: /wp- Disallow: /*trackback Disallow: /feed Disallow: /?s= Disallow: /xmlrpc.php Allow: /wp-content/uploads/ Host: www.yourdomain.ru Sitemap: http://yourdomain.ru/sitemap.xml User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: YandexImages Allow: /wp-content/uploads/ User-agent: ia_archiver Disallow: / |
Пояснения:
-
User-agent: * - Директива всем роботам
Если нужно, чтобы эти правила работали только для одного, конкретного робота, то вместо * указываем его имя (User-agent: Yandex, User-agent: Googlebot и т.д.).
-
Disallow: /cgi-bin/
Здесь мы запрещаем индексировать папку со скриптами.
- Disallow: /wp- - Запрещает индексацию всех папок и файлов движка, начинающихся с wp- (т.е. папок /wp-admin/, /wp-includes/, /wp-content/ и всех файлов, расположенных в корневой папке).
-
Disallow: /*trackback Disallow: /*comment- Disallow: /feed
Запрещаем индексацию комментариев, трекбеков и фида.
Спецсимвол * означает любую (в том числе пустую) последовательность символов, т.е. все, что находится в адресе до указанной части или после нее. - Disallow: /?s= - Запрещаем индексацию результатов поиска.
-
Allow: /wp-content/uploads/ - Разрешение индексировать папку uploads (а значит и расположенные в ней картинки).
Правило Яндекса для robots.txt гласит:
Получается, что директиву Аllow можно указать в любом месте.
Яндекс самостоятельно сортирует список директив и располагает их по длине префикса.
Google понимает Allow и вверху и внизу секции.
Касательно директивы Allow: /wp-content/uploads/ - поскольку, далее мы разрешаем индексировать роботам-индексаторам картинок папку с картинками, я не уверена, что эта директива нужна.
Но, наверное, лишней не будет. Так что, это - на ваше усмотрение. -
Host: www.glavnoye-zerkalo.ru - Директива Host понимается только Яндексом и не понимается Гуглом.
В ней указывается главное зеркало сайта, в случае, если у вашего сайта есть зеркала. В поиске будет участвовать только главное зеркало.
Директиву Host лучше написать сразу после директив Disallow (для тех роботов, которые не полностью следуют стандарту при обработке robots.txt).
Для Яндекса директива Host являются межсекционной, поэтому будет найдена роботом не зависимо от того, где она указана в файле robots.txt.
Важно: Директива Host в файле robots.txt может быть только одна.
В случае указания нескольких директив, использоваться будет первая. -
Sitemap: http://mysite.ru/sitemaps.xml - Указываем путь к файлу sitemaps.xml
Для Яндекса и Google Sitemap - это межсекционная директива, но лучше написать ее в конце через пустую строку. Так она будет работать для всех роботов сразу.
-
User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: YandexImages Allow: /wp-content/uploads/
Разрешает роботам Googlebot и YandexImages индексировать наши картинки.
-
User-agent: ia_archiver Disallow: /
Полностью запрещаем роботу веб архива индексацию нашего сайта.
Это предупредительная мера, которая защитит сайт от массового парсинга контента через веб архив.
Итак, мы рассмотрели стандартную часть файла robots.txt, которая подойдет для любого сайта на wordpress.
Но, нам нужно спрятать от роботов-индексаторов еще некоторые разделы сайта, в частности, те, которые создают дублированный контент - разного рода архивы.
Индивидуальные настройки:
-
Если на вашем сайте есть система древовидных комментариев, как на моем блоге, тогда нужно запретить индексацию таких адресов:
*?replytocom=
Их создает кнопка (ссылка) "Ответить на комментарий".
- Страницы архивов на разных сайтах имеют различные адреса, в зависимости от того, как формируются URL на сайте, включены ли ЧПУ или нет.
Как определить адреса архивов вашего сайта?Для этого нужно открыть архив любого месяца и посмотреть, как выглядит адрес страницы архива.
Он может выглядеть, например, так: http://sait.ru/archives/date/post-1.
В этом случае, выделяем общую для всех архивов по дате часть адреса:
/archives/date/.
Соответственно, в файле robots.txt указываем:
Disallow: /archives/date/*
Будьте внимательны - у вас архивы могут иметь другие адреса.
Например, архив года может иметь такой адрес: http://sait.ru/2012
Тогда закрывать нужно эту часть - /2012/
Напоминаю, что спецсимвол * означает любую последовательность символов, т.е. все, что находится в адресе далее. - Точно так же определяем адреса архивов тегов и архивов автора.
И закрываем их в robots.txt.Disallow: /archives/tag/ Disallow: /archives/author/
Рекомендую архивы тегов закрыть примерно на полгода-год, (если у вас молодой сайт) пока он стабильно пропишется в поисковой выдаче.
После этого срока архивы тегов стоит открыть для индексации, так как по наблюдениям, на страницы тегов по поисковым запросам приходит значительно больше посетителей, чем на страницы постов, к которым эти теги созданы.
Но, не добавляйте к постам много тегов, иначе вашему сайту будут грозить санкции за дублированный контент.
Один-два (редко три) тега к одному посту вполне достаточно. - Можно, также, закрыть индексацию всех главных страниц, кроме первой.
Обычно, их адреса выглядят так: http://sait.ru/page/2, http://sait.ru/page/3 и т. д., но лучше проверить.
Перейдите по ссылкам навигации внизу Главной страницы на вторую страницу и посмотрите, как выглядит ее адрес в адресной строке.
Закрываем эти страницы:
Disallow: /page/* -
Иногда, на сайте требуется закрыть от индексации еще какие то страницы или папки. В этом случае, действуете аналогично - открываете в браузере нужную вам страницу и смотрите ее адрес. А дальше закрываете его в robots.txt.
Учтите, что если вы закрываете, например, папку "book", то автоматически закроются и все файлы, расположенные в этой папке.
Если закрыть страницу, в URL'е которой есть, например, "news" так: */news/,
то закроются и страницы /news/post-1 и /category/news/.
robots.txt полностью ↓
Открыть ↓
Справка:
Подробности составления robots.txt можно изучить на странице помощи Яндекса - http://help.yandex.ru/webmaster/?id=996567
Проверить правильность составления файла можно в webmaster.yandex - Настройка индексирования - Анализ robots.txt
В Google robots.txt можно проверить по этой ссылке:
https://www.google.com/webmasters/tools/crawl-access?hl=ru&siteUrl=http://site.ru/
Проверяемый сайт должен быть добавлен в панель веб-мастера.
P.S. Для Яндекса и Google правила составления robots.txt немного различаются.
Толкование правил составления robots.txt можно прочитать здесь - http://robotstxt.org.ru
К сожалению, проверить можно только синтаксис.
Правильно ли вы закрыли от индексации разделы сайта, покажет только время :).
Ну вот и все - файл robots.txt готов, осталось только загрузить его в корневой каталог нашего сайта.
Напоминаю, что корневой каталог это папка в которой находится файл config.php.
И последнее - все, сделанные вами изменения в robots.txt, будут заметны на сайте только спустя несколько месяцев.
В тему:
Однажды видела сайт на wordpress, на котором не было файла robots.txt.
Этот сайт некоторое время простоял пустым - т.е. с одной стандартной записью, которая по умолчанию присутствует в wordpress.
Представьте себе, какой шок испытал владелец сайта, когда обнаружил, что Яндекс проиндексировал 2 страницы с контентом и больше тысячи страниц самого движка 🙂
На этой веселой ноте заканчиваю.
Внутренняя оптимизация сайта:
3. Перелинковка.
4. Файл robots.txt.
5. Файл sitemap.xml.
6. Пинг.
Спасибо, ещё раз проверил свой robots.txt.
А почему надо закрывать комменты? Пусть индексируются. Это даст профит по супер нч запросам.
Потому что ссылка на страницу отдельного комментария - это суть ссылка на запись, к которой этот комментарий оставлен. Только ссылки на запись и на комментарий к этой записи сильно отличаются.
А поскольку комментариев к каждой записи может быть очень много, то получается дублированный контент в громадном количестве.
Ксана, спасибо! Первый раз вижу такое подробное разъяснение, как правильно составить robot.tx, надо будет произвести "ревизию" своего файла:)
Ксана, спасибо за robots.txt, сейчас сверяю со своим.
Запрещаю архивы и page и проверяю через webmaster.yandex.ua/site/robots.xml пишет напротив:
Disallow:
/archives/author/ разрешен
Disallow:
/archives/date/ разрешен
Disallow:
/page/ разрешен
Значит, архивы и страницы разрешены?
Вряд ли.
Сервис Вебмастер поисковых систем проверяет только синтаксис, т.е. правильное употребление директив.
А не то, какую страницу вы разрешили, а какую запретили.
Спасибо за ответ, пошел корректировать.
Эх. Полез проверять, так нашел ошибку в имени домена. Будьте оч внимательны!
Нельзя ли как-нить ускорить посткорректировочный процесс?
Это вы о чем?
Нашел свою ошибку. Не у вас, нет.
Очень не хочется долго ждать результатов корректировки 🙂
У меня получился вот такой робот.тхт
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-login.php
Disallow: /trackback
Disallow: /feed
Disallow: */trackback
Disallow: */feed
Disallow: /comment-page/*
Disallow: /xmlrpc.php
Disallow: /author
Disallow: /tag
Disallow: /page
Disallow: /archives
Disallow: */comment*
Disallow: */feed
Disallow: /iframes
Disallow: /privacy-policy.html
Disallow: /web-site-agreement.html
Disallow: /category/*/*
Disallow: */trackback*
Disallow: /*?*
Disallow: *.php
Disallow: /*.js
Disallow: /*.inc
Disallow: /*.css
Disallow: /*.gz
Disallow: /*.wmv
Disallow: /*.cgi
Disallow: /*.zip
Allow: /wp-content/uploads/
Host: ssss.com
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-login.php
Disallow: /trackback
Disallow: /feed
Disallow: */trackback
Disallow: */feed
Disallow: /comment-page/*
Disallow: /xmlrpc.php
Disallow: /author
Disallow: /tag
Disallow: /page
Disallow: /category/*
Disallow: /archives
Disallow: /comments
Disallow: /*feed
Disallow: */trackback
Disallow: */comment*
Disallow:/iframes
Disallow: /privacy-policy.html
Disallow: /web-site-agreement.html
Disallow: /category/*/*
Disallow: */trackback*
Disallow: /*?*
Disallow: *.php
Disallow: /*.js
Disallow: /*.inc
Disallow: /*.css
Disallow: /*.gz
Disallow: /*.wmv
Disallow: /*.cgi
Disallow: /*.zip
Allow: /wp-content/uploads/
Sitemap: http://ssss.com/sitemap.xml
Типа, это всех роботов.
А это для особо одаренных, которые с первого раза не понимают :).
Какой смысл писать одно и то же дважды?
Давно взял ваш файл за основу, несколько доработав - спасибо.
Спасибо, полезная информация, проверила на нескольких блогах своих.
Подождем пару месяцев 🙂
Спасибо Ксана!
Добавила некоторые строки в роботс.
Будем ждать...
А я на своем сайте для исключения дублей запретил к индексации и архивы по годам:
Disallow: /2011/
Disallow: /2010/
Disallow: /2012/
Правда года ежегодно приходится ручками дописывать
Спасибо, что напомнили.
Действительно, архивы по годам тоже нужно закрыть.
Спасибо за отличную статью.
А я индексацию архивов по годам так закрываю.
Disallow: /201*
Чтобы все года столбиком не писать.
Яндекс понимает (проверял в Яндекс.Вебмастер).
Хорошая идея!
Спасибо, пригодится.
Ксана, здравствуйте! Установила, предложенный Вами вариант файла Robots.txt , а яндекс вебмастер мне выдал ошибку " 32: Google Image: Обнаружена неизвестная директива." Что я не так сделала?
Это для Яндекса неизвестная директива, а для робота google очень даже известная :).
Хотя, это просто пояснение для владельца сайта (не для Яндекса), так что его можно удалить.
Ксана я еще чайник. подскажите пожалуйста что у меня не так в файле роботекст, вроде как надо, но с индексацией Яндекса ужас творится.
Crawl-delay: 4
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Crawl-delay: 4
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Host: http://teotihuacan.ru
Sitemap: http://teotihuacan.ru/sitemap.xml.gz
Sitemap: http://teotihuacan.ru/sitemap.xml
Что же я не так сделал? С уважением Николай.
В принципе, грубых ошибок нет, но я бы сократила файл и закрыла бы все архивы.
Кроме того, вызывает сомнение целесообразность следующих конструкций:
Disallow: */*/trackback
Disallow: */*/feed/*/
Что касается индексации, то ваш сайт по-видимому, под фильтром у Яндекса. Чтобы вывести его из под фильтра, нужно найти причину и устранить.
Этой причиной может быть дублированный контент (еще одна причина закрыть архивы в robots.txt).
Рекомендую прочитать этот пост и сделать все, в нем написанное.
Вот еще одна подсказка - http://solomono.ru/?search=http%3A%2F%2Fteotihuacan.ru. Это анализ вашего сайта.
Ксаночка спасибо вам за помощь огромное, но простите мою навязчивость, уже всего боюсь, а вот так правильно?
User-agent: *
Crawl-delay: 4
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Yandex Image:
User-agent: Yandexbot-Image
Allow: /*
Internet Archiver Wayback Machine
User-agent: ia_archiver
Disallow: /
Sitemap: http://teotihuacan.ru/sitemap.xml.gz
Sitemap: http://teotihuacan.ru/sitemap.xml
Сократил и убрал
Disallow: */*/trackback
Disallow: */*/feed/*/
Архивы запретил, правильно?
Смущает Sitemap, почему то его 2 штуки. Еще раз извините, с меня - на кофе! С уважением.
Архивы вы не запретили.
Добавьте в ваш robots.txt следующее:
Disallow: /2012/
Disallow: /2013/
Disallow: /2014/
Disallow: /page/*
Disallow: /tag/*
А это тоже добавьте, только предварительно проверьте, какие адреса у вас имеют архивы месяца и архивы автора:
Disallow: /archives/date/*
Disallow: /archive/author/*
И скорректируйте эти адреса в robots.txt.
Кроме этого:
- поставьте в теги noindex все посторонние ссылки (ссылки на другие сайты). В том числе, счетчики, форму smartresponderа и пр.
- удалите баннерную рекламу с сайта;
- если продаете ссылки, перестаньте продавать.
После этого напишите в техподдержку Яндекса письмо такого плана:
Напишите из интефейса Яндекс-вебмастера, со страницы вашего сайта.
И пишите каждые две недели, пока кто нибудь из техподдержки не проверит ваш сайт вручную.
Т.е. исправить все ошибки и писать Платону - это единственный способ вернуть сайт в выдачу.
Ксана, авторизируйте меня по WebMoney, на кофе отправил.
И чтобы вас не отрывать объяснениями, скажите пожалуйста сколько будет стоить корректировка файла robots.txt.
Много не понимаю, много сил, времени в сайт вкладываю (usb ужас модем - другой возможности пока нет), не хочу из-за своей ошибки все испортить. С уважением Николай.
Да я вам все уже в комментариях рассказала.
Не нужно ничего платить.
Если добавляете robots.txt на давно существующий сайт - будьте готовы к неожиданностям.
Падение в выдаче Яндекса и Google на пару месяцев вполне нормально.
И поиск неправильных строк в robots.txt вполне может оказаться безуспешным, просто иногда так бывает.
robots.txt должен быть добавлен на сайт как можно скорее, как ни крути, но рано или поздно вопрос добавления все равно встанет, так лучше позаботиться об этом заранее, чтоб потом локти не кусать.
установил WP в отдельный каталог
адрес сайта: example.com
адрес wordpress: example.com/ololo
как правильно прописать robots.txt ?
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
или так:
Disallow: /ololo/wp-admin
Disallow: /ololo/wp-includes
Disallow: /ololo/wp-content/plugins
Теоретически, второй вариант более логичен.
Disallow: /wp-*
Этой конструкцией блокируется анализ корневых файлов?
Стоит ли заниматься крохоборством и добавлять сюда favicon.ico да пару тройку не подпадающих под правило?
Это можете решить только вы сами.
Здравствуйте, а почему при открывания моего сайта ( http://liveudm.ru/) количество запросов 800 и более, я там в подвале сделал чтобы видно было.
Потому что ваш сайт не оптимизирован.
Скачайте мою книгу Почему тормозит сайт и что с этим делать или Как ускорить работу сайта и сделайте все, что там написано.
Это должно помочь.
почитал информацию на вашем сайте про валидность, у меня на сайте 75 ошибок из них 66 опасные, про надо код исправлять?
Прочитайте, пожалуйста о различных типах ошибок.
Разумеется, все ошибки, которые можно исправить - нужно исправить.
ваш сайт загрузил в validator.w3.org сообщение что есть 89 ошибок из них 8 опасных ??? но ваш сайт работает быстро )))
Не все ошибки можно исправить, и не все ошибки нужно исправлять :).
К тому же, валидность кода меньше всего влияет на скорость загрузки страниц сайта.
а вы можете так сразу сказать какие ошибки надо мне исправить? я бы был очень вам благодарен
Увы, нет.
В комментариях я могу ответить только на вопросы, которые не нужно изучать дополнительно.
На вопросы требующие изучения, я отвечаю только при личном консультировании.
Но могу дать совет: Исправьте все, которые сможете :).
Очередная обалденная статья.
Не помню спрашивал у вас или нет - Зачем вы всю статью на главной открываете, а не анонсом? Что это дает?
Удобство чтения нового поста. Больше ничего.
Здравствуйте, Ксана! Похоже, в Вашей статье есть небольшая неточность. Вот цитата из правил Яндекса:
"Директивы Allow и Disallow из соответствующего User-agent блока сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для данной страницы сайта подходит несколько директив, то выбирается последняя в порядке появления в СОРТИРОВАННОМ списке. Таким образом порядок следования директив в файле robots.txt не влияет на использование их роботом."
И еще вопрос: разве директива Disallow: /wp-* не закроет также доступ и ко всем папкам, имя которых начинается в wp- ? И, кстати, насколько нужен здесь знак "*" ?
Яндекс меняет свои правила чаще, чем я текст уже написанной статьи :).
Но, вы правы в том, что теперь правило выглядит именно так, как вы его процитировали.
Переписала статью под новые правила.
По-большому счету, не нужен, но лишним тоже не будет.
Можно использовать знак *, а можно его не использовать. Суть одно и то же.
И еще забыл спросить: кто такие трекбеки и фиды и зачем их надо закрывать от индексации?
Кто может объяснить товарищу, что такое фид и трекбек?
Не хочется посылать в google :).
Спасибо.
Получил на мыло вашу ссылку Оксана, как нельзя кстати. Химичить в файле самому было стрёмно. Но думаю с вашей помощью разберусь непримено. Спасибо.
Ксана, здравия желаю!
А почему Яндекс при проверке робота ругается вот так:
20: Google Image: Обнаружена неизвестная директива
Это он на эту строчку ругается: Google Image:
Это просто пояснение для владельца сайта (не для Яндекса), так что его можно удалить.
Ксана, я понял, спасибо!
Тогда пусть остаётся.)))
Позвольте воспользоваться вашей женской отзывчивостью наглым образом. (я старый солдат, НО всё ещё холодный Чайник))) Посмотрите, пжста, на правильность создания файла
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-
Disallow: */trackback
Disallow: */comment-
Disallow: */feed
Disallow: /?s=
Disallow: /xmlrpc.php
Disallow: /2011/
Disallow: /2012/
Disallow: /2013/
Disallow: /2014/
Disallow: /page/
Allow: /wp-content/uploads/
Host: www.myrubicon.ru
Sitemap: http://www.myrubicon.ru/sitemap.xml
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: YandexImages
Allow: /wp-content/uploads/
User-agent: ia_archiver
Disallow: /
Так будет правильно.
Чтобы не повторять, отредактировала ваш код.
Ксана, спасибо!
Я вас уже люблю, как...как...как боевого товарища, скупо и по-солдатски крепко))))
Ксана, здравствуйте!
Мой сайт под АГС . Переделала файл robots.txt.
Теперь он выглядит так:
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
Host: repetitor-problem.net
Sitemap: http://repetitor-problem.net/sitemap.xml.gz
Sitemap: http://repetitor-problem.net/sitemap.xml
Но в Вебмастер. Яндекс п ри проверке выдает :
1: User-agent: *
Обнаружена неизвестная директива
2: Disallow: /wp-login.php
Перед правилом нет директивы User-agent
Что это значит? Какие внести исправления?
БЛАГОДАРЮ заранее.
Эта часть вызывает сомнения.
Я бы переделала так:
Disallow: /category/
Disallow: */trackback
Disallow: */feed/
А эту часть сократила бы:
Disallow: /wp-
И я бы не писала директивы отдельно для каждого робота.
Больше никакой крамолы не вижу, вроде все нормально.
Татьяна, скачайте свой robots.txt на компьютер, откройте не в обычном блокноте, а в Notepad++ в верхнем меню "Кодировки" выберите пункт "Кодировать в UTF-8 (без BOM)", сохраните и залейте обратно в корень сайта. Проверьте в яндекс анализе robots.txt, всё должно быть хорошо. По крайней мере мне помогло.
Disallow: /*?* такая фича если вы не поменяли дефолтный вид ссылок типа вашблог/?p=416 выкинет из индекса все на свете не только теги категории архивы но и сами посты останется одна морда сайта
Здравствуйте, Ксана! Я вижу в вашем файле robots.txt строку Disallow: *?replytocom=, но в поиске у Гугла у вас 3730 страниц и эта функция присутствует, и даже очень много раз. Вот, например, prodengiblog.ru/otzyvy?replytocom=2084
Я недавно обнаружила (когда писала этот пост), что на блоге есть страницы с такими адресами и запретила индексацию их в robots.txt, со временем эти страницы выпадут из поиска.
А у меня может быть странный вопрос. Смотрю статистику Яндекс вебмастера, робот сначала загружает все, что можно, а затем исключает, то, что запрещено файлом роботс. А можно сделать так, чтобы загружались только те страницы, которые нужны, а не всевозможные?
Нет, роботы действуют именно так и от нас в этом вопросе мало что зависит.
Я сделал все как написано в статье, спасибо. Ладно хоть сейчас увидел эту статью
Ксана, будьте добреньки, ответьте!
Видеоконтент, свой-родной, загруженный с YouTube на свой-же сайт, надо включать в индексацию?
Если сайт очень молодой или близок к ГС - тогда не надо, ибо нужно ограничить все внешние ссылки.
Если сайту от года и это СДЛ, тогда включайте в индекс.
Если есть необходимость постоянно так видео подгружать, то на ютубе можно создать собственный канал, в который загружать видео, а с него поставить ссылку на сайт, тем самым указав поисковикам, что это канал сайта.
Простите, ГС и СДЛ - это?
Необходимость постоянно подгружать есть. На ютубе свой канал есть.
На сайте нет прямых ссылок, я использую шорткод, где только ID.
1. Как поставить ссылку на ютубе?
2. Поисковики и ютуб индексят?
3. На сайте сделать тоже ссылку на ютубовский канал? Не пойму связь ютуб-сайт-поисковики.
Простите за скудоумие.
ГС - это плохие сайты (я барышня воспитанная 🙂 и поэтому прямым текстом писать не могу), а СДЛ - это Сайты Для Людей.
Обо всем остальном не подскажу - на знаю, спросите лучше на Форуме в разделе Индексация.
Ksana, спасибо! Уже подцепила сайт к каналу. Спасибо!!!
Robots-на очереди.