Как избавиться от дублей страниц на сайте?

Дубли — это страницы сайта, расположенные под одним доменом, контент на которых целиком или частично совпадает с другими. Любопытно, что дублирование встречается практически на трети всех существующих веб-сайтов. Проверка на дублирование будет полезна как тем IT-специалистам, у которых уже есть действующий сайт, так и тем, кто только собирается его запускать.

Виды дублей страниц на сайте

Дубли веб-страниц возникают в силу различных обстоятельств, поэтому их следует рассматривать по нескольким видам.

Полные

С «www» и без, «http» и «https», слеши в середине, в конце ссылки, их отсутствие К этому виду относятся одинаковые страницы, которые можно открыть по нескольким ссылкам. Отличие таких URL в том, есть ли в начале адреса «www», указан протокол «http» или «https», сколько слешей стоит в середине или конце.
Главная страница открывается по разным адресам Например, когда URL, который содержит в конце название индексного файла с расширением или без него — «https://domain.com/index.php», «https://domain.com/index.html», «https://domain.com/index» — открывает одну и ту же страницу.
С UTM-метками UTM-метки — это специальные параметры внутри ссылки, необходимые системам веб-аналитики для отслеживания эффективности продвижения страниц. Порой в поисковой выдаче могут встречаться страницы с UTM-метками, которые полностью повторяют содержимое других веб-страниц без меток.
Дублирование товара/услуги Причина появления таких дубликатов — человеческий фактор. Например, один товар или услуга по ошибки были помещены в разные категории. Как результат — снижение перехода на дублирующийся продукт.
По уровням вложенности К этому виду причисляются веб-страницы, которые открываются по адресам с разным уровнем вложенности, например: «https://flowerstore.com/flowers/roses» и «https://flowerstore.com/roses». Такие различия могут возникать из-за особенностей CMS, в которой осуществлялась разработка веб-сайта.
Не настроена страница для 404 ошибки Если ответ сервера для ошибки 404 не настроен или настроен некорректно, то, при изменении в URL регистра символов, замены дефисов на нижнее подчеркивание, добавление лишних символов, содержимое страницы не изменится.
Версии для печати Если у страницы есть версия для печати и она открывается как идентичная оригиналу версия с измененной ссылкой — это тоже дубликат.

Частичные

Товары с одинаковыми характеристиками Раньше на веб-сайтах интернет-магазинов можно было часто заметить, как при выборе другого цвета или размера товара открывается новая страница. Именно так появляются частичные дубли страниц этого вида. Выход из этой ситуации — добавление на страницу селектора, который, при выборе иной характеристики товара, позволит вывести ее на той же странице без открытия новой.
Страницы сортировок, фильтров Повторы страниц в этом случае могут возникать при фильтрации по каталогу, когда каждый новый выбранный параметр сортировки отражается в ссылке.
Региональные версии страниц Здесь примером могут являться web-страницы, URL которых меняется в зависимости от выбора региона — а контент при этом остается прежним.

Откуда берутся дубли страниц и почему от них нужно избавляться

Дубликаты страниц могут создаваться по разным причинам:

Особенности CMS — к примеру, выбранная для создания сайта CMS не позволяет добавлять на страницы возможность выбора товара по разным характеристикам без изменения ссылки. В этом случае по каждому параметру будет отдельная страничка-дубль.
Ошибки, допущенные человеком, нередко становятся причиной повторяющихся страниц. К таким ошибкам относятся случаи, когда, например, контент-менеджер заносит услугу или товар в несколько разных категорий, или IT-специалист меняет URL у продукта, но по старому URL продукт все еще доступен.

Почему нужно удалять дубли, чем они опасны — давайте разберемся:

Поисковые системы могут неправильно идентифицировать релевантную страницу — а именно, поместить в поисковую выдачу дубликат, а не оригинал веб-страницы. Для пользователя, который ищет ответ на свой вопрос в поисковой системе, дублирование не представляет опасности, но для SEO-специалиста такие случаи создают много проблем.
Как следствие — трафик разделяется между всеми дубликатами страниц, что мешает закреплению определенной страницы в топе поисковой системы.
Снижается скорость обхода и индексирования — поисковики медленнее анализируют контент сайта из-за обилия дублей, за счет чего нужные страницы реже появляются в выдаче.

Как обнаружить дубли страниц

Теперь, когда понятен риск наличия дублей web-страниц, необходимо проверить сайт. Обнаружить дубликаты можно с помощью:

Специальных сервисов и программ — Яндекс.Вебмастер, Google Search Console Яндекс.Вебмастер сообщит о дубликатах страниц в возможных проблемах, а также предложит варианты решения

Оповещение в Вебмастере о дублях на сайте

Screaming Frog SEO Spider, SiteAnalyzer Программа Screaming Frog SEO Spider позволяет найти дублирующиеся веб-страницы по различным параметрам (например, по совпадающему тегу title).

Через Screaming Frog SEO Spider можно просто и быстро найти дубли

Операторов Довольно медленный способ, который применяется, если нет доступа к специализированным сервисам или программам. Минус этого метода также заключается в том, что дубликаты с помощью него можно найти только в том случае, если они уже индексированы поисковой системой. Пример поиска через операторы: ввести в поисковике запрос «site:*хост* "фраза для проверки"», в которой "фраза для проверки" — любой текст со страницы сайта.

Как избавиться от дублей

Когда дубликаты страниц удалось найти, необходимо избавиться от них. Удаление дублирующий web-страниц можно осуществить по-разному:

Склеить дубли через 301 редирект Суть этого метода заключается в том, чтобы выбрать основную страницу и настроить перенаправление со всех существующих дубликатов на нее. Доступ к идентичным страницам в этом случае будет потерян, но поисковые системы станут вести пользователя на ту страницу сайта, которую вы определили главной.
Запретить индексацию дублей Например, заблокировать дубли в robots.txt. Для этого текстовый файл robots.txt нужно поместить в корень веб-сайта — он будет сообщать поисковым системам, что такие страницы индексировать не нужно. Минус использования файла в том, что поисковиками он будет расцениваться скорее как рекомендация, чем как указание. Эффективнее действует использование метатега robots в элементе head кода вашего сайта. Поисковики будут идентифицировать этот метатег как команду и перестанут показывать дублирующие страницы.
Через Clean-param (работает только для Яндекса): Clean-param: auth_token>m_debug, Clean-param: calltouch_tm Директива Clean-param, внесенная в robots.txt, будет указывать поисковому роботу Яндекса, что повторяющиеся страницы не стоит загружать многократно. Впоследствие все страницы робот Яндекса объединит под один адрес, который и будет выводить в поисковой выдаче.

Результат использования директивы Clean-param

Не пренебрегайте проверкой на дубли страниц ваш сайт, ведь время, потраченное на это, позволит вам в будущем эффективнее работать над продвижением страниц в интернете. Если вы еще не запустили веб-сайт, добавьте в план запуска пункт о проверке ресурса на дубликаты. Если сайт уже работает и не является столь продуктивным, насколько вы бы хотели — выделите время и средства, необходимые для проверки и удаления дублирующихся веб-страниц. И даже в случае, если продвижение портала не приносит вам проблем и вы считаете его успешным, уделите внимание дублям страниц все равно — вполне возможно, что вы можете повысить эффективность раскрутки сайта и получить гораздо больше выгоды, чем планировали. Успешного продвижения!

Дубли страниц на сайте: каких бывают видов, откуда берутся и как их удалить