Влияет ли дублированный контент на формирование сайтов в поисковой выдаче? Этот вопрос рассматривали на очередной видеовстрече для разработчиков веб-сайтов. Причиной обсуждения данной темы стал интерес одного из участников брифинга, у которого свой интернет-магазин автозапчастей. Он хотел узнать, могут ли одинаковые описания комплектующих на нескольких страницах ресурса отразиться на его поисковой выдаче.
По мнению сотрудника компании Google Джона Мюллера наличие дублей на страницах сайта не влияет на ранжирование . Как он утверждает, ситуация, когда на площадке представлено определенное количество дублированных описаний — это абсолютно нормально и алгоритмы Google вполне способны с этим справиться.
Как Google сортирует сайты с дублированной информацией в поисковой выдаче?
Когда в интернете присутствует несколько страниц с повторяющимися описаниями, поисковая система покажет лишь одну из них. При этом ранжироваться будет та страница, которая максимально приближена к требованиям поискового запроса. Если страницы размещены на одном ресурсе, то Google также не будет выводить в результаты поиска их все, а выберет только одну. Процесс выбора наиболее релевантной страницы среди остальных называется каноникализацией .
Чтобы подтвердить факт отсутствия влияния дубликатов на результаты выдачи, Мюллер наглядно продемонстрировал описания товаров и услуг на сайтах интернет-магазинов. В них, как правило, содержится одна и та же информация. Джон доказал, что для поисковой системы — это не проблема и она способна ранжировать сайты согласно указанным запросам.
Можно привести еще один пример отсутствия влияния повторяющейся информации на позиции сайта. Каждый ресурс содержит в себе футер. Это сквозной элемент сайта, который необходим для перелинковки страниц ресурса и повышения вовлеченности пользователей. В футере также содержится технически дублированный контент, однако его наличие никак не влияет на результаты выдачи сайта в системе поиска.

Определение дублированного контента и каноникализация в Google
Чтобы найти одинаковые описания на сайте, для каждой страницы ресурса Google формирует контрольную сумму (checksum). Если на сайте присутствует две страницы с одинаковыми контрольными суммами, поисковая система примет их за дубликаты.
Контрольная сумма — это показатель, который формируется на основании цифровой информации. Контрольные суммы используют не только для обнаружения дублей, но и для:
- выявления ошибок, которые возникают в процессе хранения или передачи данных;
- проверки целостности сведений.
Не следует путать процессы обнаружения дублированного контента и каноникализацию. Это абсолютно два разных понятия. Процесс поиска одинаковой информации включает обнаружение дублей, их группировку и доказательство того, что они выступают копиями друг друга. А каноникализация подразумевает выбор главной страницы среди остальных.
Как Google определяет дубли?
Зачем сокращать контент на сайтах до контрольных сумм? Это делается для того, чтобы не анализировать всю текстовую информацию. Сканирование всего текста требует больше ресурсных и временных затрат, а на финише результат будет примерно одинаковым. Поэтому, чтобы обнаружить повторяющийся контент, достаточно вычислить несколько видов контрольных сумм и сравнить их.
Расчет checksum осуществляют на основании основного содержимого — «центрального элемента страницы». При этом не учитывают боковые панели и колонтитулы. Процесс определения дублированного контента и его ранжирование включает следующие этапы:
- расчет контрольных сумм;
- создание кластера дубликатов;
- выбор одной страницы для показа в результатах поиска.
Благодаря такому подходу Google может определить не только полную, но и частично дублированную информацию.
Зачем Google обнаруживает повторяющуюся информацию?
Есть три основные причины, по которым поисковая система определяет дублирующий контент:
- нелюбовь пользователей к схожему контенту в результатах выдачи;
- лимиты свободного пространства в поисковом индексе;
- отсутствие необходимости хранения дубликатов, которые не интересны пользователям.
Благодаря отслеживанию дублированного контента пользователи смогут видеть только ту информацию, которая им необходима и интересна.
Порядок выбора канонической страницы
После того, как поисковая система определит страницы с одинаковым контентом, наступает процесс каноникализации — выбора главной из них в кластере. Определить, какую страницу показывать в результатах поисковой выдачи — задача не из легких.
Для этого Google использует более 20 сигналов:
- наличие HTTPS;
- переадресация;
- атрибут rel=canonical;
- pagerank;
- контент и т. д.
Чтобы установить вес (силу) каждого сигнала, применяют автоматические программы. Вручную сделать это достаточно сложно, что обусловлено изменениями показателей. При уменьшении веса одного сигнала, вес других будет увеличиваться. Например, инженер начнет настраивать один сигнал, что, в результате, станет причиной перекоса в других сигналах. И так до бесконечности. Именно поэтому, чтобы упростить процесс мониторинга силы каждого сигнала, используют специальные приложения и программы.
Обратите внимание, что процесс каноникализации никоим образом не пересекается с ранжированием. Страница, которую выбрал Google, будет показываться в результатах поисковой выдачи, однако на основании других сигналов (не тех, которые учитывали при каноникализации).
Теперь вы понимаете алгоритм определения дублей, каноникализации и ранжирования. Если вас также интересует вопрос влияния дублирующего контента на сортировку сайта в результатах выдачи — не беспокойтесь. Даже если на вашем сайте есть одинаковые описание — это не принесет ущерба поисковому продвижению сайта. Алгоритмы Google отлично справляются с повторяющейся информацией на ресурсе и будут его ранжировать.
Также у нас есть полезный материал о причинах удаления контента из поиска Google. Ознакомиться с ним вы можете по ссылке .