Урок 33. Как правильно составить файл robots.txt для поисковиков

Последнее изменение поста: Декабрь 16, 2016

Как правильно составить файл robots.txt для WordPressПриветствую Вас  на своем блоге. Сегодня я расскажу, как правильно составить файл robots.txt для WordPress. Файл robots.txt — простой текстовый файл, который можно написать в простым текстовым редактором, например «Блокнот» от Windows. Файл robots.txt нужно разместить в корневой папке Вашего блога.

Этот файл должен состоять из символов нижнего ригистра - robots.txt. Поисковикам нужно указывать, что можно индексировать, а что нет. Чтобы лучше поисковики индексировали Ваш блог, надо закрыть от индексации ненужные папки, рубрики, страницы и прочее. Роботы должны индексировать только то, что Вам необходимо.

Вот что нам на это отвечает Яндекс:

Запретите в robots.txt индексирование страниц, неинтересных пользователям. Например, формы ответа на форуме, статистику посещений, страницы с результатами поиска, сайты-зеркала, документы на нераспространенных в рунете языках.

Как правильно составить файл robots.txt для WordPress

В файле нужно задать параметры для каждого поисковика. Давайте рассмотрим следующий вариант этого файла для wordpress:

User-agent: *
Allow: /wp-content/uploads/
Crawl-delay: 4
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: */comment*
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /?s=
Disallow: /o-sebe/*
Disallow: /2011/*
Disallow: /2012/*
Disallow: /category/novosti/*
Disallow: /archives/tag/*
Disallow: /*?* этот параметр не добавляем. Если уже присутствует в файле - удалите его
Host: dvpress.ru

Sitemap: http://dvpress.ru/sitemap.xml.gz
Sitemap: http://dvpress.ru/sitemap.xml

Теперь разберем по полочкам этот файл:

Первая строка означает, что все параметры относятся ко всем поисковым роботам. Чтобы указать для поискового робота Yandex, нужно указать следующее: User-agent: Yandex. Здесь мы не будем рассматривать параметры всех поисковых роботов, а только общие. Директивы Google и Yandex немного отличаются.

User-agent: *

В следующей директиве мы разрешили индексировать папку uploads, в которой находятся картинки блога.

Allow: /wp-content/uploads/

Задали тайм аут в 4 секунды. Бывает, что сервер перегружен и поэтому не успевает обрабатывать запросы на закачку, тогда можно указать эту директиву. Эта директива не учитывается в Google.

Crawl-delay: 4

Заблокировали доступ к страницам, начинающимся с '/cgi-bin'

Disallow: /cgi-bin

Следующие директивы указывают, какие папки не следует индексировать

Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes

Если указать Disallow: /wp-*, тогда будет запрещена индексация всех файлов, которые начинаются с wp-

Следующие параметры запрещают индексирование комментариев, трекбыков и фида. (Трекбеки - это обратные ссылки. Размещают их под комментариями к посту на тот блог, который ссылается на данную статью).

Disallow: */comment*
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed

Запрет на индексацию результатов поиска:

Disallow: /?s=

Следующие строки запрещают индексацию архивов, за 2011 год и 2012:

Disallow: /2011/*
Disallow: /2012/*

На Вашем блоге страницы архивом могут отличаться. Чтобы проверить, какой адрес у Вас имеют страницы архивов, зайдите в архив и посмотрите в адресной строке. У меня это выглядит так: http://dvpress.ru/2012/02, что означает: 2012 год архива, а 02 месяц архива, т.е. февраль. У Вас это может выглядеть примерно так:

Потом я закрыл от индексации страницу "О себе" и "Книги".

Disallow: /o-sebe/*
Disallow: /knigi/*

Так же закрыл от индексации рубрику "Новости".

Disallow: /category/novosti/*

Следующие директивы запрещают индексацию тегов архивов.

Disallow: /archives/tag/

Архивы тегов рекомендуют закрывать, пока у Вас молодой сайт. Когда Ваш сайт хорошо проиндексируется, можно будет убрать запрет на индексацию, это примерно через полгода.

Так же рекомендуют закрыть индексацию всех главных страниц, кроме первой. Для этого перейдите на следующую страницу и посмотрите в адресной строке, как они у Вас выглядят. У меня на блоге они выглядят так: http://dvpress.ru/page/2, поэтому я вписал в робот следующую директиву:
Disallow: /page/* , где звездочка указывает, что следующие страницы индексировать так же запрещено.

Далее указываем путь к следующим файлам sitemap.xml.gz и sitemaps.xml:

Sitemap: http://dvpress.ru/sitemap.xml.gz
Sitemap:

Примечание: Звездочка "*" в конце директивы означает, что все, что идет после, так же не должно быть индексировано, например: Disallow: /2012/* - означает, что архив 2012 не должен индексироваться и все его вложения.

Проверить работоспособность файла, после его настройки можно в Яндексе по следующему адресу: http://webmaster.yandex.ru/robots.xml#results и в Google https://www.google.com/webmasters/tools/crawl-access?hl=ru&siteUrl=http://site.ru/

Читайте также:

почему Яндекс не всегда работать с файлом robots.txtкак удалить сопли Google

___________________________
К Уроку 34. Кнопки социальных сетей wordpress, несколько способов настройки

Получайте свежие статьи на свою почту

Поделиться статьей с друзьями


30 Comments

  1. Юрий! Доброго, удачного времени суток. У меня около трех месяцев были терки по поводу добавления и индексации моего сайта в Яндексе. Наконец я победил и сайт индексируется.
    Решил я настроить файл robots.txt. Вроде все ясно. Захожу на Яндекс – Вебмастер, далее – мои сайты – анализ robots.txt. – ввожу адрес сайта, и тут система просит “Загрузить robots.txt. с сайта”. Вопрос:”Где на сайте находится файл robots.txt.?”
    Захожу на хостинг, открываю файл robots.txt., и вижу то, о чем Вы пишите в 33 уроке.
    В раздели – же Яндекс – Вебмастер “анализ robots.txt.”
    вижу:User-agent: *
    Disallow: /wp-admin/
    Disallow: /wp-includes/

    Sitemap:
    Нужно ли корректировать файл robots.txt. у себя на сайте. Если да, то где он находится. Если достаточно того, что на хостинге, наверно тогда ничего не нужно трогать.
    Прикрепляю скриншоты с “Яндекс – Вебмастер “анализ robots.txt.” и с хостинга.
    Заранее благодарен за помощь.
    С уважением и благодарностью.

    boris752
    • Здравствуйте, Борис!
      Загрузите файл robot.txt в корень Вашего блога.

  2. Хорошая статья, изложено все четко. Думаю что многим пригодится. Спасибо за труд.

    Andrey Kuboff
  3. Спасибо за полезную информативную статью – давно искала подробную инструкцию по созданию robots.txt. 🙂

    Татьяна (YanaSobol)
  4. Здравствуйте,Юрий!
    Обращаюсь к Вам как к сокурснику “ТВОЙ-СТАРТ”.
    Требуется установить robots.txt.
    Пишут много, но все говорят куда идти,но никто не рассказывает, как туда добраться.
    “…который можно составить простым текстовым редактором «Блокнот» в Windows. Потом его необходимо разместить в корне Вашего блога…”- все,темный лес.
    Вы не могли бы подсказать по шагам или добавить эту информацию в статью, чтобы все нуждающиеся видели?
    Буду ждать ответа.
    Спасибо.
    Валентина

    Валентина
    • Валентина, здравствуйте! Я добавил подробное объяснение, как найти корневую папку. Перейдите по этой ссылке http://dvpress.ru/urok-27-kak-pomenyat-logotip-zamena-logotipa/.html

  5. Юрий, здравствуйте. А если не создавать этот файл чем это грозит? И зачем закрывать какие то файлы для индексации?

    Мария
    • Мария, поисковые роботы обращаются всегда к файлу robots.txt, и из этого файла получают инструкции, что нужно индексировать на сайте, а что нет, например: страница “О себе”, “Контакты”, “Друзья”, страницы с секретной информацией, страницы, к которым закрыт доступ и т.д. Поисковым роботам, так же будет полезно указать путь для индексации определенных страниц, например “Карта сайта”.

  6. Все написано здорово, осталось хорошо разложить у себя по полочкам, только теперь поняла, что это такое, все более менее понятно! Спасибо

  7. Все-таки тяжело быть “чайником”. Делала-делала файл этого робота. Вроде бы все проверила. Было нормально. А сегодня обнаружила на сайте вебмастер яндекс, что у меня 420 страниц сайта запрещено для индексации. И смотрю, это совсем не секретные материалы, а статьи для людей. Как это исправить теперь? Не знаю(((

    Татьяна
  8. А что означает такая запись в файле robots.txt: Disallow: /*?*

    Татьяна
    • Не будут индексироваться страницы на подобии: site.ru/?param=1

  9. А если было уже проиндексировано Яндексом больше 100 страниц, потом они почему-то выпали из индекса и осталось всего 6 проиндексированных страниц. В чем может быть причина? Страшно это или нет? Спасибо за помощь

    Татьяна
    • Да, Татьяна, это страшно, но не смертельно. Скорее всего ваш блог попал под фильтр.

  10. Мне непонятно вот это: “Так же рекомендуют закрыть индексацию всех главных страниц, кроме первой”. А почему их надо закрывать?

    • Чтобы не создавались дубли страниц.
      О будлях можете почитать урок 84
      Рекомендуется вначале закрыть весь блог от индексации, а потом только открыть то, что действительно должно индексироваться.
      Эти страницы, как раз и не должны индексироваться.

  11. Ответьте пожалуйста, если нет такой строчки – Allow: /wp-content/uploads/-то картинки не индексируются? Спасибо!

    Наталия
  12. Хороший совет. Дубли плодить дело неблагодарное )) Лучше обходится без них.

    Игровой
    • Верно, дубли на блоге совсем не нужны 🙂

  13. Роботс.тхт не меняла, а Яндекс говорит, что именно он является причиной того, что мой сайт не индексируется и попал под фильтр. Подскажите, пожалуйста, в таком случае поможет перенос сайта на новый домен? Спасибо

    Татьяна
    • Даже не могу представить, чтобы сайт попал под фильтр из-за файла robots.txt! Да, неиндексироваться сайт может из-за robots.txt, но причем здесь фильтр?
      Татьяна, сайт “Малыш и мама” попал под фильтр? Надо вначале точно выяснить причину, почему сайт попал под АГС, и только потом думать, что делать дальше с сайтом.

  14. Подскажите пожалуйста, у меня в редакторе в файле page.php параметры страницы начинаются так:
    А в файле robots.txt есть такой запрет на индексацию: Disallow: /*?
    Disallow: /*?*
    Заметила следующее: новая статья индексируется, затем по истечении некоторого времени эта страница почему-то выпадает из индекса. Может ли это быть связано с параметрами страницы? Если параметры страницы сделать без вопросительного знака – это страшно? Может убрать из файла robots.txt эти два запрета? Спасибо)))

    Татьяна
    • Татьяна, директиву Disallow: /*? можно удалить, а Disallow: */*? можно оставить. Если Яндекс страницу вначале проиндексировал – это значит, что она разрешена к индексации. А почему страницы выпадают из индекса, я не смогу рассказать в комментариях.

  15. Хорошая статья. Очень понятно. Спасибо. А гугл роботс не читает? Или для него надо по другому?

    Ната
    • Google читает robots.txt, но некоторые директивы нужно прописывать отдельно. Чтобы посмотреть мой файл robots.txt, введите в адресной строке dvpress.ru/robots.txt

  16. Юрий вечер добрый. Посмотрите правильно составлен robots.txt или надо что то еще добавлять или убирать? Спасибо.

    • Приветствую, Александр. Почти все хорошо, но некоторые директивы можно добавить. Наберите в адресной строке http://dvpress.ru/robots.txt, после чего, вы на экране увидите содержимое моего файла robots.txt. Теперь можете сравнить со своим файлом, и добавить, то, чего нет. Только ничего в своем файле не удаляйте. У меня некоторых параметром нет, которые есть у вас. Потом сделаю аудит вашего блога.

  17. Здравствуйте Юрий. Я добавил:
    Allow: /wp-content/uploads/
    Crawl-delay: 4
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Что касаемо моих страниц с контентом и фото. Мне необходимо чтоб робот их обходил и индексировал.
    Далее эти строки я не добавлял:
    Disallow: /page/*
    Disallow: /?s=
    Disallow: /archives/tag/*
    так как не знаю за что они отвечают, и что они закрывают от индексации, объясните пожалуйста стоит мне их вносить или нет. Спасибо большое.

    • Приветствую, Александр! Директива Disallow: /?s= описана в статье. Она запрещает индексацию результатов поиска. Директива Disallow: /page/* запрещает индексацию динамических страниц дублей. Disallow: /archives/tag/* закрывает от индексации теги архивов.

  18. Юрий, добрый день. Почему гугл при анализе Robots говорит, crawl-delay не учитывается при индексации. Гугл бот дает большую нагрузку на сайт

Оставить комментарий

Яндекс.Метрика