Дубли страниц на сайте: каких бывают видов, откуда берутся и как их удалить


Поделиться

Дубли — это страницы сайта, расположенные под одним доменом, контент на которых целиком или частично совпадает с другими. Любопытно, что дублирование встречается практически на трети всех существующих веб-сайтов.

Проверка на дублирование будет полезна как тем IT-специалистам, у которых уже есть действующий сайт, так и тем, кто только собирается его запускать.

Виды дублей страниц на сайте

Дубли веб-страниц возникают в силу различных обстоятельств, поэтому их следует рассматривать по нескольким видам.

Полные

  • С «www» и без, «http» и «https», слеши в середине, в конце ссылки, их отсутствие
    К этому виду относятся одинаковые страницы, которые можно открыть по нескольким ссылкам. Отличие таких URL в том, есть ли в начале адреса «www», указан протокол «http» или «https», сколько слешей стоит в середине или конце.
  • Главная страница открывается по разным адресам
    Например, когда URL, который содержит в конце название индексного файла с расширением или без него — «https://domain.com/index.php», «https://domain.com/index.html», «https://domain.com/index» — открывает одну и ту же страницу.
  • С UTM-метками
    UTM-метки — это специальные параметры внутри ссылки, необходимые системам веб-аналитики для отслеживания эффективности продвижения страниц. Порой в поисковой выдаче могут встречаться страницы с UTM-метками, которые полностью повторяют содержимое других веб-страниц без меток.
  • Дублирование товара/услуги
    Причина появления таких дубликатов — человеческий фактор. Например, один товар или услуга по ошибки были помещены в разные категории. Как результат — снижение перехода на дублирующийся продукт.
  • По уровням вложенности
    К этому виду причисляются веб-страницы, которые открываются по адресам с разным уровнем вложенности, например: «https://flowerstore.com/flowers/roses» и «https://flowerstore.com/roses». Такие различия могут возникать из-за особенностей CMS, в которой осуществлялась разработка веб-сайта.
  • Не настроена страница для 404 ошибки
    Если ответ сервера для ошибки 404 не настроен или настроен некорректно, то, при изменении в URL регистра символов, замены дефисов на нижнее подчеркивание, добавление лишних символов, содержимое страницы не изменится.
  • Версии для печати
    Если у страницы есть версия для печати и она открывается как идентичная оригиналу версия с измененной ссылкой — это тоже дубликат.

Частичные

  • Товары с одинаковыми характеристиками
    Раньше на веб-сайтах интернет-магазинов можно было часто заметить, как при выборе другого цвета или размера товара открывается новая страница. Именно так появляются частичные дубли страниц этого вида. Выход из этой ситуации — добавление на страницу селектора, который, при выборе иной характеристики товара, позволит вывести ее на той же странице без открытия новой.
  • Страницы сортировок, фильтров
    Повторы страниц в этом случае могут возникать при фильтрации по каталогу, когда каждый новый выбранный параметр сортировки отражается в ссылке.
  • Региональные версии страниц
    Здесь примером могут являться web-страницы, URL которых меняется в зависимости от выбора региона — а контент при этом остается прежним.
Разрабатываем и продвигаем сайты
Построенные на современных технологиях и фреймворках

Откуда берутся дубли страниц и почему от них нужно избавляться

Дубликаты страниц могут создаваться по разным причинам:

  • Особенности CMS — к примеру, выбранная для создания сайта CMS не позволяет добавлять на страницы возможность выбора товара по разным характеристикам без изменения ссылки. В этом случае по каждому параметру будет отдельная страничка-дубль.
  • Ошибки, допущенные человеком, нередко становятся причиной повторяющихся страниц. К таким ошибкам относятся случаи, когда, например, контент-менеджер заносит услугу или товар в несколько разных категорий, или IT-специалист меняет URL у продукта, но по старому URL продукт все еще доступен.

Почему нужно удалять дубли, чем они опасны — давайте разберемся:

  • Поисковые системы могут неправильно идентифицировать релевантную страницу — а именно, поместить в поисковую выдачу дубликат, а не оригинал веб-страницы. Для пользователя, который ищет ответ на свой вопрос в поисковой системе, дублирование не представляет опасности, но для SEO-специалиста такие случаи создают много проблем.
  • Как следствие — трафик разделяется между всеми дубликатами страниц, что мешает закреплению определенной страницы в топе поисковой системы.
  • Снижается скорость обхода и индексирования — поисковики медленнее анализируют контент сайта из-за обилия дублей, за счет чего нужные страницы реже появляются в выдаче.

Как обнаружить дубли страниц

Теперь, когда понятен риск наличия дублей web-страниц, необходимо проверить сайт. Обнаружить дубликаты можно с помощью:

  • Специальных сервисов и программ — Яндекс.Вебмастер, Google Search Console
    Яндекс.Вебмастер сообщит о дубликатах страниц в возможных проблемах, а также предложит варианты решения
Оповещение в Вебмастере о дублях на сайте
  • Screaming Frog SEO Spider, SiteAnalyzer
    Программа Screaming Frog SEO Spider позволяет найти дублирующиеся веб-страницы по различным параметрам (например, по совпадающему тегу title).
Через Screaming Frog SEO Spider можно просто и быстро найти дубли
  • Операторов
    Довольно медленный способ, который применяется, если нет доступа к специализированным сервисам или программам. Минус этого метода также заключается в том, что дубликаты с помощью него можно найти только в том случае, если они уже индексированы поисковой системой.
    Пример поиска через операторы: ввести в поисковике запрос «site:*хост* "фраза для проверки"», в которой "фраза для проверки" — любой текст со страницы сайта.

Как избавиться от дублей

Когда дубликаты страниц удалось найти, необходимо избавиться от них. Удаление дублирующий web-страниц можно осуществить по-разному:

  • Склеить дубли через 301 редирект
    Суть этого метода заключается в том, чтобы выбрать основную страницу и настроить перенаправление со всех существующих дубликатов на нее. Доступ к идентичным страницам в этом случае будет потерян, но поисковые системы станут вести пользователя на ту страницу сайта, которую вы определили главной.
  • Запретить индексацию дублей
    Например, заблокировать дубли в robots.txt. Для этого текстовый файл robots.txt нужно поместить в корень веб-сайта — он будет сообщать поисковым системам, что такие страницы индексировать не нужно.
    Минус использования файла в том, что поисковиками он будет расцениваться скорее как рекомендация, чем как указание.
    Эффективнее действует использование метатега robots в элементе head кода вашего сайта. Поисковики будут идентифицировать этот метатег как команду и перестанут показывать дублирующие страницы.
  • Через Clean-param (работает только для Яндекса): Clean-param: auth_token&gtm_debug, Clean-param: calltouch_tm
    Директива Clean-param, внесенная в robots.txt, будет указывать поисковому роботу Яндекса, что повторяющиеся страницы не стоит загружать многократно. Впоследствие все страницы робот Яндекса объединит под один адрес, который и будет выводить в поисковой выдаче.
Результат использования директивы Clean-param

Не пренебрегайте проверкой на дубли страниц ваш сайт, ведь время, потраченное на это, позволит вам в будущем эффективнее работать над продвижением страниц в интернете. Если вы еще не запустили веб-сайт, добавьте в план запуска пункт о проверке ресурса на дубликаты. Если сайт уже работает и не является столь продуктивным, насколько вы бы хотели — выделите время и средства, необходимые для проверки и удаления дублирующихся веб-страниц. И даже в случае, если продвижение портала не приносит вам проблем и вы считаете его успешным, уделите внимание дублям страниц все равно — вполне возможно, что вы можете повысить эффективность раскрутки сайта и получить гораздо больше выгоды, чем планировали.

Успешного продвижения!

Читайте также