Урок 84. Как найти дубли страниц на сайте? Как удалить дубли страниц?

Как найти дубли страниц на сайте, как удалить дубли страниц с сайтаПриветствую Вас, друзья! Сегодня разберемся, как найти и удалить дубли страниц. Не так давно я  узнал, что на блоге могут появляться дубли страниц, что не очень-то меня обрадовало. Я думал, что это может касаться кого угодно, но только не меня. Потом я убедился в обратном. Сейчас я все расскажу по-порядку.

Вы можете подумать: ну и пусть себе появляются, мне-то какая разница? Оказывает все не так просто, как может показаться на первый взгляд.

К этому уроку обязательно стоит прочитать: как удалить сопли Google и как удалить дубли картинок на сайте WordPress

Как найти дубли страниц? Как удалить дубли страниц?

Дубли плохо влияет на индексацию блога. Польза от перелинковки и внешних ссылок значительно теряет вес. Чаще всего дубли страниц формируются у CMS, например, WordPress или Joomla

Возможно, небольшое количество дублей и не повредит блогу, но если дублей предостаточно, то с блогом могут начаться проблемы.

Для поиска дублей страниц существует несколько способов.

Введите вначале в поисковике Яндекс команду: host:вашсайт.ru, а потом в Гугл, и посмотрите на результат выдачи, какое количество в Яндекс, и какое в Гугл.

В Google у меня показало 3470 ответа, а в Яндексе всего 130. Так вот, если число страниц в Яндекс и Гугл будет значительно отличаться, то это уже подозрительно. Возможно на блоге существуют дубли.

Проверить дубли страниц можно следующим способом:

С каждой страницы скопируйте отрывок текста, примерно 15 слов и вставьте в поисковую строку браузера. Если будет появляться в выдаче более одной страницы, значит, существуют дубли.

Ну а если Ваш сайт имеет достаточно много страниц, тогда можно воспользоваться программой Xenu`s Link Sleuth. Скачать программу, Вы можете по этой ссылке http://home.snafu.de/tilman/XENU.ZIP

Программа "Xenu Link Sleuth" - инструкция

Скачайте программу и установите ее. Потом запустите программу, выберите «file» -> “Check URL…», введите адрес своего сайта и щелкните ОК.

Начнется долгий процесс проверки Вашего сайта. Это программа будет находить: страницы, ссылки битые и небитые, ссылки на картинки и прочее

Любые ошибки будут выделяться красным цветом, поэтому все ошибки будут хорошо видны.

По результатам проверки моего блога, похвастаться нечем. Весь блог набит каким-то HTML-мусором. Один плагин мне блог подпортил очень здорово. Пропало несколько статей, а также куча картинок из уроков. Для восстановления всего этого надо достаточно много времени.

После того, как проверка закончится, нужно все содержимое на экране скопировать и вставить в любой текстовый редактор. Там уже можно спокойно искать дубли страниц.

Но необязательно пользоваться этой программой, потому что проверить дубли можно еще в «Яндекс. Вебмастер» и «Google Webmaster Tools» и удалить копии страниц.

Удаление дублей страниц

Все ненужные ссылки, которые индексирует Яндекс, надо удалять здесь http://webmaster.yandex.ru/delurl.xml

Ненужные ссылки у Google надо удалять в Google Webmaster. Мне здесь все же удобнее было удалять дубли, чем в Яндекс.

Итак, переходите в «Google Webmaster Tools» по этой ссылке https://www.google.com/webmasters/tools/, и кликните по сайту, который будете проверять.

Как найти дубли страниц на сайте, как удалить дубли страниц с сайта

Потом с левой стороны надо щелкнуть по «Индекс Google» и чуть ниже щелкните «Удалить URL-адреса». После этого надо кликнуть по серому прямоугольнику, который называется «Создать новый запрос на удаление».

Теперь откройте новую вкладку в браузере и введите в адресной строке google.com. Нам нужен поисковик от Гугл.

Наберите в поисковой строке site:vashsait.ru. Появиться список всех страниц, которые есть на сайте, и если есть дубли, то они тоже появятся.

Как найти дубли страниц на сайте, как удалить дубли страниц с сайта

Теперь находите дубли страниц, и если они есть, то копируйте адреса этих страниц и вставляйте в другой вкладке браузера в окошко «Создать новый запрос на удаление». Я выделил рамочкой, чтобы Вы понимали где адреса страниц копировать.

Как найти дубли страниц на сайте, как удалить дубли страниц с сайта

Вот таким образом Вы избавитесь от всех ненужных копий.

Таким способом можно избавиться от дублей, если у Вас маленький сайт. Но если на сайте достаточно много страниц, то дубли можно удалять с помощью редиректа 301 или закрытия этих страниц от индексации в файле robots.txt.

Файл robots.txt нужно правильно составить, еще в самом начале создания блога. О файле robots.txt я писал в уроке 33.

Посмотрите видео, как можно удалить дублирующие страницы с сайта, с помощью программы "Xenu Link Sleuth"

Вот и все. Успехов Вам.
______________________
К уроку 85. Как получить естественные внешние ссылки на свой блог?

62 Comments

  1. Век живи – век учись. Еще и такая фишка есть, оказывается. Еще раз спасибо за полезную информацию. Но, блин, так на удаление дублей страниц минимум неделя понадобится.

    Татьяна
    • Татьяна, на удаление дублей уйдет может всего лишь час, так что не волнуйтесь

  2. и если не секрет – какой плагин вам так навредил?

    Татьяна
    • Конечно не секрет, Татьяна. Я этому плагину даже целый урок посвятил. Мне этот плагин очень нравился своей простотой, потому что не требовалось редактировать файлы. Называется этот плагин wordpress-seo-pager, который вставляет в шаблон постраничную навигацию

  3. А если дубли страниц есть, то их нужно удалять и в гугле и в яндексе, или можно только в гугле, например?

    Татьяна
    • Нет, Татьяна, дубли удаляются на самом блоге. Страницы даже не удаляются, а закрываются от индексации

  4. а дубли страниц и склейка страниц – это одно и тоже? Или я чепуху говорю?

    Татьяна
    • Нет, Вы говорите не чепуху. Дубли страниц можно склеить с помощью редиректа 301

  5. Интересная информация, даже не задумывалась, что дубли бывают, спасибо.

  6. Полкезная статья, но возникли 2 вопроса.
    У меня есть учебный сайт, который я должен продвинуть , прочитав статью , нашел 50% дублей .Может ли это служить минусом , если их нет у конкурентов(из топа яндекса выпал на 21 место)?
    И еще, закрыв их описанным методом, в гугл мастере , они из яндекса тоже исчезнут? Или нужно и там их как то удалять?
    Через какое время появится результат?

    Петр.
    • Конечно дубли страниц могут понизить в выдаче. Чаще всего так оно и бывает, но обычно не сразу, а постепенно.
      А закрывать дубли нужно, как в Яндексе, так отдельно и в Google. Это ведь два разных поисковика!

  7. Спасибо большое статья подробная и полезная, не задумывалась о том почему в выдаче разное количество, постепенно нужно разобраться

  8. Конечно же ,лучше сразу следить за дублями,с самого основания сайта.Но,если уже есть,то проще и быстрее закрыть их от индексации в роботсе.

  9. Дубли – это те, где подписано “сохраненная копия”?

    Наташа
  10. За дублями всегда нужно следить, а то они постоянно возникают.

    Простой
    • Да, дубли постоянно появляются. От них нужно избавляться постоянно

  11. Здравствуйте, проверила наличие дублей – и ужаснулась. Оказалось, уже больше года у меня на сайте полная неразбериха. Теги, категории, все дублируется. Но самое главное – дублируется главная со странным дублем http://mal-domikru.net/?sid=9d8205dd064f18d5c4f6adab2d0a7971 не подскажите что это за птица, и еще пару страниц с таким странным хвостом есть в дублях.

    • Здравствуйте!
      Я не знаю, что это за птица, но эту птицу надо удалить из индексации

  12. Вот у меня, в гугле все страницы. А в Яндексе становится все меньше и меньше. Если копирую текст статьи, вставляю в поиск Яндекса,то он не выдает мой сайт. Если в Гугле искать часть текста, то сайт появляется в верхней строке выдачи соответственно. Почему так?

    Макс
    • Поисковики Яндекс и Гугл индексируют страницы по разному. Молодые сайты Яндекс индексирует как правило позже, чем Гугл. Яндекс не находит текст, потому что страница еще не проиндексирована

  13. Страницы были проиндексированы, но сейчас выпали из выдачи. Юрий, я сделал аудит на Мегаиндексе, и обнаружил несколько страниц, на которых в kewords присутствуют слова о заработке в сети,о ведении блога, но я их не вводил. К тому же есть страница, при нажатии на которую, перенаправляет на стр.404. Вот например /category/razvlecheniya-i-otdyh
    /page/2
    /2013/03
    /category/polezno-znat Почему в них такие ключевые слова? Спасибо.

    Макс
    • Макс, я тоже делал аудит на Мегаиндексе, но ему я не доверяю. Показывает, что на моем блоге более 200 битых ссылок, но когда я пробую по этим ссылкам переходить, то попадаю на страницы как положено. Если честно, то я больше не провожу аудит на Мегаиндексе и не могу вам скажать. почему этот сервис находит на ваших страницах то, чего не существует.

  14. Юрий, помогите мне, пожалуйста! Мне не удаётся подтвердить право собственности на сайт. Гугл отвечает, что Google Analytics на сайте находится в неправильном месте. Я в этом не разберусь. Можете мне дать ссылку на понятный материал, или видео, как правильно поместить его на место?

    • Ирина, видимо вы не туда код вставили, или вообще не вставили. Не думаю, что в Интернете такую информации тяжело найти. Могу вам посоветовать изучить небольшой урок по Google Analytecs.

  15. Спасибо, Юрий, буду разбираться. “Прописалась” я на Вашем ресурсе последнее время. Всё так по порядку раскладываете.

    • Да, Ирина, стараюсь писать подробно и понятно.

  16. Добрый день! подскажите, у меня одна статья должна быть в двух рубриках, получается дубль? что делать

    • Не думаю, что будут от этого дубли. Мне тоже иногда приходится одну статью добавлять в две рубрики. Я проверял, но дублей не обнаружил после этого. Конечно не желательно добавлять статью в несколько рубрик.

  17. Спасибо с вашей помощью разобралась с дублями на сайте. Очень понятно и доходчиво сделано видио. И еще раз спасибо.

    name nika
  18. Юрий, пытаюсь работать по Вашей статье. Наконец-то подтвердила права на сайт в Гугле. Но теперь проблема вылезла. После загрузки файла на хостинг перестал работать баннер на сайте. Не подскажите, как исправить этот конфликт?

    • Ирина, загрузка файла на хостинг и баннер не могут конфликтовать между собой. Если код баннера вы устанавливали через виджет, то попробуйте переустановить его. Если все равно не будет работать, попробуйте код баннера установить в новую статью в режиме HTML. Если и в статье баннер не будет виден, то возможно проблема в самом коде баннера.

  19. Спасибо, буду разбираться. И ещё. В Гугле у меня индексируется почти 11 тысяч страниц – очумелое число. Такое количество, наверное, нет смысла удалять по одной? Какой способ выбрать? Чтобы мне было не трудно с этим справиться, конечно.

    • А вы видео к этому уроку смотрели? Файл robots.txt у вас вроде нормально настроен

  20. Файл установлен верно. А программа на иностранном, устанавливать боюсь, потому как непонятно, где и что отмечать.

    • В программе ничего отмечать не надо. Я ведь все в видео показал. Если на вашем блоге много дублей, то надо сделать все, как написано в этом уроке. Отключите древовидные комментарии, и ждите, когда лишние страницы удалятся из индекса.

  21. Юрий, я установила программу, запустила, работает. Всё делаю чётко по ролику. Но не могу понять, какой же смысл от неё, если надо опять идти в Гугл, например, и уже там удалять буквально по одной строчке. А у меня их почти 11 тысяч!… А почему не сразу там удалять? Какой толк тогда от программы, если Гугл и сам может показать дубли, без программы?
    И неужели это всё только от древовидных комментариев?

  22. То есть, можно ничего не делать? Просто отключить древовидные комментарии и всё?
    Только что попробовала, получился такой бардак. Непонятно, кто кому что отвечает… Наверное, надо у каждого коммента приблизить время ответа к исходнику, тогда будет ясность. Но у меня дублей всё равно будет навалом, я ведь сначала черновики сразу в сайте писала, кроме того, они ещё и сохранялись автоматом. Это потом я отключила эту “услугу”.
    А сейчас стоит только выпустить статью, как сразу прибавляется несколько сотен страниц, хотя помещаю сразу чистовик. Почему так получается? Я уже боюсь статью новую ставить…

  23. Меня тоже заинтересовал этот вопрос – что достаточно отключить древовидные комментарии и можно даже не заморачиваться с программой Xenu? Эти дубли сами уйдут?

    • Дубли физически не исчезнут, а перестанут индексироваться поисковиками, черз месяца два. Если файл robots.txt настроен, то древовидные комментарии на Яндекс не влияют, а только на Google. Google не понимает директиву Disallow: */comment*, которая запрещает индексацию комментариев

  24. Проделала всю процедуру, которую вы описали. В Xenu при формировании отчета у меня вышло 903 страницы, но практически все зеленым цветом. Только несколько строк – красные. Что с ними делать?
    В Гугле выпал весь список статей, но на некоторых вот такие надписи:
    “tvoyazhizn50.ru/kak-prigotovit-ry-bu-doradu/feed/
    Описание веб-страницы недоступно из-за ограничений в файле robots.txt.”
    Это дубль страницы или нет? Надо ли его удалять?

    • Я не знаю, что это у вас за страница такая, и что с ней надо делать.
      Когда включены древовидные комментарии, WordPress создает дублирующие страницы основных страниц.
      Дубли страниц имеют следующий вид окончаний, например: …/?replytocom3189
      Слово reply означает: ответ, отчет… Но в данном примере это слово означает дубль страницы.
      Чтобы избавиться от дублей, надо отключить древовидные комментарии

  25. Здравствуйте. Долго маялся над поиском дублей. Спасибо за материал, только у меня есть доп. вопрос.

    Первая строчка в результатах проверки у меня такая

    “Broken links, ordered by link:

    empty URL
    error code: 404 (not found), linked from page(s):”

    И дальше идут ссылки некоторые фиолетовым цветом, некоторые синим (примерно 50 на 50) что обозначают эти цвета?

  26. И еще сообщите пользователям что при проверке сайтов расположенных на юкозе они автоматически потом блокируются при заходе с ip с которого проводилась проверка XENU видно из-за нагрузки на сервер. Я например не смог заходить на свой сайт примерно часа 2, сделал для проверки еще один анализ чцжого юкозовского сайта и опять на пару часов вход на него мне был заблокирован.

  27. Спасибо автору, а то достали эти дубли

    Михаил
  28. Добрый вечер)Такие ссылки в Гугле – это дубли? “Блог о Нижнем Новгороде | Нижний Новгород – Part 6 ifennov.ru/page/6/‎”
    “Блог о Нижнем Новгороде | Нижний Новгород – Part 3 lifennov.ru/page/3/‎” и т.д по номерам.

    Макс
    • Вроде нет, не дубли.
      Вы можете проверить следующим образом:
      Перейдите по ссылке, которая по вашему мнению может быть дублем.
      Потом перейдите на эту же страницу уже не по ссылке, а непосредственно с вашего сайта.
      Теперь сравните адреса страницы по ссылке и с сайта. Если есть отличие, то возможно это дубль, но не обязательно.
      Дубли страниц имеют слово reply в конце ссылки, если проверять через программу Xenu

  29. Здравствуйте Юрий! Спасибо за статью, не могла найти как убрать дублирующие страницы,попала на Ваш сайт, то что нужно, программу поставила, дублей вроде показала не много, поставила удалить, но вот гугл пишет. что удалятся на 90 дней, или я что то не так сделала?

    • Здравствуйте, Надежда! Если Вы отключите древовидные комментарии, то URL-ы, которые Вы запросили на удаление с индексации, больше не появятся. Кстати, забыл написать в этой статье, что дубли еще появляются, если статью добавлять больше, чем в одну рубрику. Если есть такие статьи – исправьте.

  30. Статья хорошая и полезная, только вот ни как не могу понять где у меня дубли, у меня другая проблема также, на сайте куча битых ссылок оказалось из-за старых удаленных рубрик и категорий объявлений, их удалить не могу. как это сделать может подскажешь?))

    Тимур
    • Тимур, установи плагин Broken Link Checker. Этот плагин будет постоянно находить битые ссылки, которые можно потом легко удалить

  31. Я его установил и он не нашел не одной ссылки, но в базе Яндекса они есть, может со времен база Яндекса обновится и они выпадут, а так не знаю

    Тимур
  32. Приветствую Вас Юрий.Мне понравились ваши статьи.У меня вопрос,что дают древовидные комментарии и для чего они нужны. Я скачал программу о которой вы писали выше.Проштудировал свой сайт в ней около двух часов. Показала страниц около 3000 тысяч.
    Где там дубли а где нет мне не совсем понятно.Как их отличить от обыкновенных страниц? Хоть вы и показывали на своем при мере,но у вас короткие ссылки, у меня же они длиннее.Когда включать или отключать древовидные комментарии.? Если я периодически обновляю свой сайт информацией,как не допустить дублирование страниц, и соответственно чтоб новые статьи и страницы индексировались. Спасибо

    • Здравствуйте, Александр. Древовидные комментариями можно включать или отключать в движке WordPress. Когда включены такие комментарии, есть возможность отвечать отдельно каждому участнику, при этом каждый ответ стоит немного правее. Тяжело объяснить, если честно, хотя кажется так просто. Если у Вас есть блог, то скорее всего древовидные комментарии у него включены. Древовидные комментарии можно и не отключать, но тогда нужно делать редирект дублей. Дублированная страница имеет в ссылке окончание /replytocom. Я только что Ваш блог проверил программой Xenu. Пока дублей страниц у Вас нет, но в будущем они обязательно появятся, так что надо будет иногда проверять. А страницы блога будут индексироваться и с дублями, но дубли нужно обязательно убирать. Поисковый робот ведь не понимает, где дубль, а где нет. Если дубли не убирать, может случиться следующее:
      1. Занижение в поисковой выдаче
      2. Страницы могут вылетать из индекса
      3. И самое худшее – это попасть под фильтр АГС

  33. Здравствуйте Юрий. Привет Славянам. Спасибо вам за разЪяснения и помощь. Я сейчас отключил древовидные комментарии в консоли своего сайта. Когда я могу их включить.? Юрий скажите мне, в вашей партнерке в странице профубучение я увидел статью о покупке курса продвижения сайта с помощью Seo ОПТИМИЗАЦИИ. Она самая первая. Там говориться о пошаговом алгоритме действий по оптимизации сайта и его попадания в TOP 10.Вопрос у меня к вам. Вы считаете стоящия информация, чтоб ее купить? Спасибо.

    • Александр, еще раз здравствуйте. Древовидные комментарии можно включить только в том случае, если вы сделаете редирект дублей страниц. На данный момент, я не вашем блоге дублей не обнаружил. Вы ведь заметили, что у меня тоже отключены древовидные комментарии? У меня не получается сделать редирект, хотя особо этим я не занимался. А что касается курса по SEO, то я его не изучал. Но, если в курсе есть все, что обещают на продающей странице, тогда курс действительно нормальный. Только Вы вначале решите, надо Вам это или нет? Я покупал курсы, но потом клал их на полочку, где им и место:)).

  34. Здравствуйте!

    А у меня древовидные комментарии закрыты в robots.txt. вот такой директивой: Disallow: /*/?replytocom=*

    Этого достаточно? Или все равно дубли есть?

    И большое спасибо за разъяснения с рубриками – сейчас займусь этим вопросом.

  35. Запрет индексации replytocom в файле robots.txt делать нельзя. Вот тут об этом подробно написано _http://vk.cc/2Kmahi Иначе как раз и будут дубли.

    Олег
    • Полностью прочитал статью Александра и сразу все исправил, спасибо. Посмотрим дальнейший результат. У меня вроде и так не плохой, 49% страниц в индексе, и этот показатель постоянно увеличивается

  36. Я дубли проверяла и программой Хену и Линкоскопом. В первом случае 2 битые ссылки во втором 1200. Не подскажите чему верить?

    name nika

Leave a Reply

Яндекс.Метрика