Как найти дубли страниц на сайте? Как удалить дубли страниц?

Приветствую Вас! В этой статье разберемся, как найти и удалить дубли страниц на сайте WordPress. Не так давно я узнал, что на сайте могут появляться дубли страниц, что не очень-то меня обрадовало. Решил я проверить, в каком состоянии мой сайт, и обнаружил множество дублирующих страниц, от которых надо незамедлительно избавляться. Сейчас я расскажу все по-порядку.

Вы можете подумать: ну и пусть себе появляются дубли, мне-то какая разница? Оказывает все не так просто, как может показаться на первый взгляд.

Читайте так же по теме как этой статье: как удалить сопли Google и как удалить дубли картинок на сайте WordPress

Поиск дублей страниц на сайте и удаление

Дубли плохо влияют на индексацию блога. Польза от перелинковки и внешних ссылок значительно теряет вес. Чаще всего дубли страниц формируются у CMS WordPress, Joomla и др.

Возможно, небольшое количество дублей и не повредит сайту, но если их очень много, тогда с сайтом могут начаться реальные проблемы. Для поиска дублей существует несколько способов.

Один из способов поиска дублей страниц на сайте

Введите вначале в поисковике Яндекс команду: host:вашсайт.ru, а потом в Гугл, и посмотрите на результат выдачи, какое количество в Яндекс, и какое в Гугл.

В Google у меня показало 3470 ответа, а в Яндексе всего 130. Так вот, если число страниц в Яндекс и Гугл будет значительно отличаться, то это уже подозрительно.

Еще один способ

С каждой страницы скопируйте отрывок текста, примерно 15 слов и вставьте в поисковую строку браузера. Если будет появляться в выдаче более одной страницы, значит, существуют дубли.

Ну а если Ваш сайт имеет достаточно много страниц, тогда можно воспользоваться программой Xenu`s Link Sleuth. Скачать программу можно по этой ссылке http://home.snafu.de/tilman/XENU.ZIP

Программа Xenu's Link Sleuth — инструкция

Скачайте и установите программу на ПК. Запустите ее, а затем перейдите «file» -> “Check URL…»,

[lazy_load_box effect=»fade» speed=»1900″ delay=»5″]Как найти дубли страниц на сайте? Как удалить дубли страниц?[/lazy_load_box]

введите адрес своего сайта и нажмите ОК.

[lazy_load_box effect=»fade» speed=»1900″ delay=»5″]Как найти дубли страниц на сайте? Как удалить дубли страниц?[/lazy_load_box]

Начнется долгий процесс проверки. Это программа будет находить страницы, битые ссылки, ссылки на картинки и прочее. Любые ошибки будут выделяться красным цветом, поэтому их будет сложно не заметить.

По результатам проверки моего ресурса, похвастаться нечем. Весь сайт набит каким-то HTML-мусором. Один плагин мне вообще весть сайт чуть не загубил. Пропало несколько статей, а также куча картинок.

После того, как проверка закончится, нужно все содержимое на экране скопировать и вставить в любой текстовый редактор. Там уже можно спокойно искать дубли страниц.

Но проверить дубли на сайте можно не только с помощью этой программы, но и воспользоваться инструментами Яндекc и Google

Удаление дублей страниц

Все ненужные ссылки, которые индексирует Яндекс, можно удалять здесь https://goo.gl/JUdQFd

Также надо удалить ссылки, которые индексирует Гугл. Переходите в Google Webmaster по этой ссылке https://www.google.com/webmasters/tools/, а затем выберите сайт, который который хотите проверить.

[lazy_load_box effect=»fade» speed=»1900″ delay=»5″]
Как найти дубли страниц на сайте, как удалить дубли страниц с сайта
[/lazy_load_box]

Далее, с левой стороны, надо выбрать «Индекс Google», а потом «Удалить URL-адреса». После этого надо кликнуть по серому прямоугольнику, который называется «Создать новый запрос на удаление».

Теперь откройте новую вкладку в браузере и введите в адресной строке google.com. Нам нужен поисковик от Гугл.

Наберите в поисковой строке site:vashsait.ru. Появиться список всех страниц, которые есть на сайте, и если есть дубли, то они тоже появятся.

[lazy_load_box effect=»fade» speed=»1900″ delay=»5″]Как найти дубли страниц на сайте, как удалить дубли страниц с сайта[/lazy_load_box]

Теперь находите дубли страниц, и если они есть, то копируйте адреса этих страниц и вставляйте в другой вкладке браузера в окошко «Создать новый запрос на удаление». Я выделил рамочкой, чтобы Вы понимали где адреса страниц копировать.

[lazy_load_box effect=»fade» speed=»1900″ delay=»5″]Как найти дубли страниц на сайте, как удалить дубли страниц с сайта[/lazy_load_box]

Вот таким образом Вы избавитесь от всех ненужных копий.

Таким способом можно избавиться от дублей, если у Вас маленький сайт. Но если на сайте достаточно много страниц, то дубли можно удалять с помощью редиректа 301 или закрытия этих страниц от индексации в файле robots.txt.

Файл robots.txt нужно правильно составить, еще в самом начале создания сайта. О файле robots.txt я писал в статье как правильно составить файл robots.txt

Посмотрите видео, как можно удалить дублирующие страницы с сайта, с помощью программы «Xenu Link Sleuth».

62 комментария к “Как найти дубли страниц на сайте? Как удалить дубли страниц?”

  1. Я дубли проверяла и программой Хену и Линкоскопом. В первом случае 2 битые ссылки во втором 1200. Не подскажите чему верить?

  2. Полностью прочитал статью Александра и сразу все исправил, спасибо. Посмотрим дальнейший результат. У меня вроде и так не плохой, 49% страниц в индексе, и этот показатель постоянно увеличивается

  3. Запрет индексации replytocom в файле robots.txt делать нельзя. Вот тут об этом подробно написано _http://vk.cc/2Kmahi Иначе как раз и будут дубли.

  4. Здравствуйте!

    А у меня древовидные комментарии закрыты в robots.txt. вот такой директивой: Disallow: /*/?replytocom=*

    Этого достаточно? Или все равно дубли есть?

    И большое спасибо за разъяснения с рубриками — сейчас займусь этим вопросом.

  5. Александр, еще раз здравствуйте. Древовидные комментарии можно включить только в том случае, если вы сделаете редирект дублей страниц. На данный момент, я не вашем блоге дублей не обнаружил. Вы ведь заметили, что у меня тоже отключены древовидные комментарии? У меня не получается сделать редирект, хотя особо этим я не занимался. А что касается курса по SEO, то я его не изучал. Но, если в курсе есть все, что обещают на продающей странице, тогда курс действительно нормальный. Только Вы вначале решите, надо Вам это или нет? Я покупал курсы, но потом клал их на полочку, где им и место:)).

  6. Александр

    Здравствуйте Юрий. Привет Славянам. Спасибо вам за разЪяснения и помощь. Я сейчас отключил древовидные комментарии в консоли своего сайта. Когда я могу их включить.? Юрий скажите мне, в вашей партнерке в странице профубучение я увидел статью о покупке курса продвижения сайта с помощью Seo ОПТИМИЗАЦИИ. Она самая первая. Там говориться о пошаговом алгоритме действий по оптимизации сайта и его попадания в TOP 10.Вопрос у меня к вам. Вы считаете стоящия информация, чтоб ее купить? Спасибо.

  7. Здравствуйте, Александр. Древовидные комментариями можно включать или отключать в движке WordPress. Когда включены такие комментарии, есть возможность отвечать отдельно каждому участнику, при этом каждый ответ стоит немного правее. Тяжело объяснить, если честно, хотя кажется так просто. Если у Вас есть блог, то скорее всего древовидные комментарии у него включены. Древовидные комментарии можно и не отключать, но тогда нужно делать редирект дублей. Дублированная страница имеет в ссылке окончание /replytocom. Я только что Ваш блог проверил программой Xenu. Пока дублей страниц у Вас нет, но в будущем они обязательно появятся, так что надо будет иногда проверять. А страницы блога будут индексироваться и с дублями, но дубли нужно обязательно убирать. Поисковый робот ведь не понимает, где дубль, а где нет. Если дубли не убирать, может случиться следующее:
    1. Занижение в поисковой выдаче
    2. Страницы могут вылетать из индекса
    3. И самое худшее — это попасть под фильтр АГС

  8. Александр

    Приветствую Вас Юрий.Мне понравились ваши статьи.У меня вопрос,что дают древовидные комментарии и для чего они нужны. Я скачал программу о которой вы писали выше.Проштудировал свой сайт в ней около двух часов. Показала страниц около 3000 тысяч.
    Где там дубли а где нет мне не совсем понятно.Как их отличить от обыкновенных страниц? Хоть вы и показывали на своем при мере,но у вас короткие ссылки, у меня же они длиннее.Когда включать или отключать древовидные комментарии.? Если я периодически обновляю свой сайт информацией,как не допустить дублирование страниц, и соответственно чтоб новые статьи и страницы индексировались. Спасибо

  9. Я его установил и он не нашел не одной ссылки, но в базе Яндекса они есть, может со времен база Яндекса обновится и они выпадут, а так не знаю

  10. Тимур, установи плагин Broken Link Checker. Этот плагин будет постоянно находить битые ссылки, которые можно потом легко удалить

  11. Статья хорошая и полезная, только вот ни как не могу понять где у меня дубли, у меня другая проблема также, на сайте куча битых ссылок оказалось из-за старых удаленных рубрик и категорий объявлений, их удалить не могу. как это сделать может подскажешь?))

  12. Здравствуйте, Надежда! Если Вы отключите древовидные комментарии, то URL-ы, которые Вы запросили на удаление с индексации, больше не появятся. Кстати, забыл написать в этой статье, что дубли еще появляются, если статью добавлять больше, чем в одну рубрику. Если есть такие статьи — исправьте.

  13. Здравствуйте Юрий! Спасибо за статью, не могла найти как убрать дублирующие страницы,попала на Ваш сайт, то что нужно, программу поставила, дублей вроде показала не много, поставила удалить, но вот гугл пишет. что удалятся на 90 дней, или я что то не так сделала?

  14. Вроде нет, не дубли.
    Вы можете проверить следующим образом:
    Перейдите по ссылке, которая по вашему мнению может быть дублем.
    Потом перейдите на эту же страницу уже не по ссылке, а непосредственно с вашего сайта.
    Теперь сравните адреса страницы по ссылке и с сайта. Если есть отличие, то возможно это дубль, но не обязательно.
    Дубли страниц имеют слово reply в конце ссылки, если проверять через программу Xenu

  15. Добрый вечер)Такие ссылки в Гугле — это дубли? «Блог о Нижнем Новгороде | Нижний Новгород — Part 6 ifennov.ru/page/6/‎»
    «Блог о Нижнем Новгороде | Нижний Новгород — Part 3 lifennov.ru/page/3/‎» и т.д по номерам.

  16. Михаил

    Спасибо автору, а то достали эти дубли

  17. Алексей

    И еще сообщите пользователям что при проверке сайтов расположенных на юкозе они автоматически потом блокируются при заходе с ip с которого проводилась проверка XENU видно из-за нагрузки на сервер. Я например не смог заходить на свой сайт примерно часа 2, сделал для проверки еще один анализ чцжого юкозовского сайта и опять на пару часов вход на него мне был заблокирован.

  18. Алексей

    Здравствуйте. Долго маялся над поиском дублей. Спасибо за материал, только у меня есть доп. вопрос.

    Первая строчка в результатах проверки у меня такая

    «Broken links, ordered by link:

    empty URL
    error code: 404 (not found), linked from page(s):»

    И дальше идут ссылки некоторые фиолетовым цветом, некоторые синим (примерно 50 на 50) что обозначают эти цвета?

  19. Я не знаю, что это у вас за страница такая, и что с ней надо делать.
    Когда включены древовидные комментарии, WordPress создает дублирующие страницы основных страниц.
    Дубли страниц имеют следующий вид окончаний, например: …/?replytocom3189
    Слово reply означает: ответ, отчет… Но в данном примере это слово означает дубль страницы.
    Чтобы избавиться от дублей, надо отключить древовидные комментарии

  20. Проделала всю процедуру, которую вы описали. В Xenu при формировании отчета у меня вышло 903 страницы, но практически все зеленым цветом. Только несколько строк — красные. Что с ними делать?
    В Гугле выпал весь список статей, но на некоторых вот такие надписи:
    «tvoyazhizn50.ru/kak-prigotovit-ry-bu-doradu/feed/
    Описание веб-страницы недоступно из-за ограничений в файле robots.txt.»
    Это дубль страницы или нет? Надо ли его удалять?

  21. Дубли физически не исчезнут, а перестанут индексироваться поисковиками, черз месяца два. Если файл robots.txt настроен, то древовидные комментарии на Яндекс не влияют, а только на Google. Google не понимает директиву Disallow: */comment*, которая запрещает индексацию комментариев

  22. Меня тоже заинтересовал этот вопрос — что достаточно отключить древовидные комментарии и можно даже не заморачиваться с программой Xenu? Эти дубли сами уйдут?

  23. В программе ничего отмечать не надо. Я ведь все в видео показал. Если на вашем блоге много дублей, то надо сделать все, как написано в этом уроке. Отключите древовидные комментарии, и ждите, когда лишние страницы удалятся из индекса.

  24. Ирина (Нянюшкин Портал)

    То есть, можно ничего не делать? Просто отключить древовидные комментарии и всё?
    Только что попробовала, получился такой бардак. Непонятно, кто кому что отвечает… Наверное, надо у каждого коммента приблизить время ответа к исходнику, тогда будет ясность. Но у меня дублей всё равно будет навалом, я ведь сначала черновики сразу в сайте писала, кроме того, они ещё и сохранялись автоматом. Это потом я отключила эту «услугу».
    А сейчас стоит только выпустить статью, как сразу прибавляется несколько сотен страниц, хотя помещаю сразу чистовик. Почему так получается? Я уже боюсь статью новую ставить…

  25. Ирина (Нянюшкин Портал)

    Юрий, я установила программу, запустила, работает. Всё делаю чётко по ролику. Но не могу понять, какой же смысл от неё, если надо опять идти в Гугл, например, и уже там удалять буквально по одной строчке. А у меня их почти 11 тысяч!… А почему не сразу там удалять? Какой толк тогда от программы, если Гугл и сам может показать дубли, без программы?
    И неужели это всё только от древовидных комментариев?

  26. Ирина (Нянюшкин Портал)

    Файл установлен верно. А программа на иностранном, устанавливать боюсь, потому как непонятно, где и что отмечать.

  27. А вы видео к этому уроку смотрели? Файл robots.txt у вас вроде нормально настроен

  28. Ирина, загрузка файла на хостинг и баннер не могут конфликтовать между собой. Если код баннера вы устанавливали через виджет, то попробуйте переустановить его. Если все равно не будет работать, попробуйте код баннера установить в новую статью в режиме HTML. Если и в статье баннер не будет виден, то возможно проблема в самом коде баннера.

  29. Ирина (Нянюшкин Портал)

    Спасибо, буду разбираться. И ещё. В Гугле у меня индексируется почти 11 тысяч страниц — очумелое число. Такое количество, наверное, нет смысла удалять по одной? Какой способ выбрать? Чтобы мне было не трудно с этим справиться, конечно.

  30. Ирина (Нянюшкин Портал)

    Юрий, пытаюсь работать по Вашей статье. Наконец-то подтвердила права на сайт в Гугле. Но теперь проблема вылезла. После загрузки файла на хостинг перестал работать баннер на сайте. Не подскажите, как исправить этот конфликт?

  31. Спасибо с вашей помощью разобралась с дублями на сайте. Очень понятно и доходчиво сделано видио. И еще раз спасибо.

  32. Не думаю, что будут от этого дубли. Мне тоже иногда приходится одну статью добавлять в две рубрики. Я проверял, но дублей не обнаружил после этого. Конечно не желательно добавлять статью в несколько рубрик.

  33. Добрый день! подскажите, у меня одна статья должна быть в двух рубриках, получается дубль? что делать

  34. Ирина, видимо вы не туда код вставили, или вообще не вставили. Не думаю, что в Интернете такую информации тяжело найти. Могу вам посоветовать изучить небольшой урок по Google Analytecs.

  35. Ирина (Нянюшкин Портал)

    Спасибо, Юрий, буду разбираться. «Прописалась» я на Вашем ресурсе последнее время. Всё так по порядку раскладываете.

  36. Ирина (Нянюшкин Портал)

    Юрий, помогите мне, пожалуйста! Мне не удаётся подтвердить право собственности на сайт. Гугл отвечает, что Google Analytics на сайте находится в неправильном месте. Я в этом не разберусь. Можете мне дать ссылку на понятный материал, или видео, как правильно поместить его на место?

  37. Макс, я тоже делал аудит на Мегаиндексе, но ему я не доверяю. Показывает, что на моем блоге более 200 битых ссылок, но когда я пробую по этим ссылкам переходить, то попадаю на страницы как положено. Если честно, то я больше не провожу аудит на Мегаиндексе и не могу вам скажать. почему этот сервис находит на ваших страницах то, чего не существует.

  38. Страницы были проиндексированы, но сейчас выпали из выдачи. Юрий, я сделал аудит на Мегаиндексе, и обнаружил несколько страниц, на которых в kewords присутствуют слова о заработке в сети,о ведении блога, но я их не вводил. К тому же есть страница, при нажатии на которую, перенаправляет на стр.404. Вот например /category/razvlecheniya-i-otdyh
    /page/2
    /2013/03
    /category/polezno-znat Почему в них такие ключевые слова? Спасибо.

  39. Поисковики Яндекс и Гугл индексируют страницы по разному. Молодые сайты Яндекс индексирует как правило позже, чем Гугл. Яндекс не находит текст, потому что страница еще не проиндексирована

  40. Вот у меня, в гугле все страницы. А в Яндексе становится все меньше и меньше. Если копирую текст статьи, вставляю в поиск Яндекса,то он не выдает мой сайт. Если в Гугле искать часть текста, то сайт появляется в верхней строке выдачи соответственно. Почему так?

  41. Здравствуйте!
    Я не знаю, что это за птица, но эту птицу надо удалить из индексации

  42. Alexandra Polina

    Здравствуйте, проверила наличие дублей — и ужаснулась. Оказалось, уже больше года у меня на сайте полная неразбериха. Теги, категории, все дублируется. Но самое главное — дублируется главная со странным дублем http://mal-domikru.net/?sid=9d8205dd064f18d5c4f6adab2d0a7971 не подскажите что это за птица, и еще пару страниц с таким странным хвостом есть в дублях.

  43. Да, дубли постоянно появляются. От них нужно избавляться постоянно

  44. Простой

    За дублями всегда нужно следить, а то они постоянно возникают.

  45. Наташа

    Дубли — это те, где подписано «сохраненная копия»?

  46. Конечно же ,лучше сразу следить за дублями,с самого основания сайта.Но,если уже есть,то проще и быстрее закрыть их от индексации в роботсе.

  47. Рашида Гарифулина

    Спасибо большое статья подробная и полезная, не задумывалась о том почему в выдаче разное количество, постепенно нужно разобраться

  48. Конечно дубли страниц могут понизить в выдаче. Чаще всего так оно и бывает, но обычно не сразу, а постепенно.
    А закрывать дубли нужно, как в Яндексе, так отдельно и в Google. Это ведь два разных поисковика!

  49. Полкезная статья, но возникли 2 вопроса.
    У меня есть учебный сайт, который я должен продвинуть , прочитав статью , нашел 50% дублей .Может ли это служить минусом , если их нет у конкурентов(из топа яндекса выпал на 21 место)?
    И еще, закрыв их описанным методом, в гугл мастере , они из яндекса тоже исчезнут? Или нужно и там их как то удалять?
    Через какое время появится результат?

  50. Татьяна

    Интересная информация, даже не задумывалась, что дубли бывают, спасибо.

  51. Нет, Вы говорите не чепуху. Дубли страниц можно склеить с помощью редиректа 301

  52. Нет, Татьяна, дубли удаляются на самом блоге. Страницы даже не удаляются, а закрываются от индексации

  53. Конечно не секрет, Татьяна. Я этому плагину даже целый урок посвятил. Мне этот плагин очень нравился своей простотой, потому что не требовалось редактировать файлы. Называется этот плагин wordpress-seo-pager, который вставляет в шаблон постраничную навигацию

  54. Татьяна, на удаление дублей уйдет может всего лишь час, так что не волнуйтесь

  55. Татьяна

    а дубли страниц и склейка страниц — это одно и тоже? Или я чепуху говорю?

  56. Татьяна

    А если дубли страниц есть, то их нужно удалять и в гугле и в яндексе, или можно только в гугле, например?

  57. Татьяна

    и если не секрет — какой плагин вам так навредил?

  58. Татьяна

    Век живи — век учись. Еще и такая фишка есть, оказывается. Еще раз спасибо за полезную информацию. Но, блин, так на удаление дублей страниц минимум неделя понадобится.

Комментарии закрыты.

Прокрутить вверх