Чи впливає дубльований контент на формування сайтів в пошуковій видачі? Це питання розглядали на черговий Відеовстрече для розробників веб-сайтів. Причиною обговорення даної теми став інтерес одного з учасників брифінгу, у якого свій інтернет-магазин автозапчастин. Він хотів дізнатися, чи можуть однакові описи комплектуючих на декількох сторінках ресурсу відбитися на його пошуковій видачі. На думку співробітника компанії Google Джона Мюллера наявність дублів на сторінках сайту не впливає на ранжування. Як він стверджує, ситуація, коли на майданчику представлено певну кількість дубльованих описів - це абсолютно нормально й алгоритми Google цілком здатні з цим справитися. Як Google сортує сайти з дубльованою інформацією в пошуковій видачі? Коли в інтернеті присутні кілька сторінок з повторюваними описами, пошукова система покаже лише одну з них. При цьому ранжуватися буде та сторінка, яка максимально наближена до вимог пошукового запиту. Якщо сторінки розміщені на одному ресурсі, то Google також не виводити в результати пошуку їх все, а вибере тільки одну. Процес вибору найбільш релевантної сторінки серед інших називається канонікалізацією. Щоб підтвердити факт відсутності впливу дублікатів на результати видачі, Мюллер наочно продемонстрував опису товарів і послуг на сайтах інтернет-магазинів. У них, як правило, міститься одна і та ж інформація. Джон довів, що для пошукової системи - це не проблема і вона здатна ранжирувати сайти відповідно до зазначених запитів. Можна навести ще один приклад відсутності впливу повторюється інформації на позиції сайту. Кожен ресурс містить в собі футер. Це наскрізний елемент сайту, який необхідний для перелінковки сторінок ресурсу і підвищення залученості користувачів. У футері також міститься технічно дубльований контент, проте його наявність ніяк не впливає на результати видачі сайту в системі пошуку. Визначення дубльованого контенту та канонікалізація в Google Щоб знайти однакові описи на сайті, для кожної сторінки ресурсу Google формує контрольну суму (checksum). Якщо на сайті присутні дві сторінки з однаковими контрольними сумами, пошукова система прийме їх за дублікати. Контрольна сума - це показник, який формується на підставі цифрової інформації. Контрольні суми використовують не тільки для виявлення дублів, але і для: виявлення помилок, які виникають в процесі зберігання або передачі даних; перевірки цілісності відомостей. Не слід плутати процеси виявлення дубльованого контенту і канонікалізацію. Це абсолютно два різних поняття. Процес пошуку однаковою інформації включає виявлення дублів, їх угруповання і доказ того, що вони виступають копіями один одного. А канонікалізація має на увазі вибір головної сторінки серед інших. Як Google визначає дублі? Навіщо скорочувати контент на сайтах до контрольних сум? Це робиться для того, щоб не аналізувати всю текстову інформацію. Сканування всього тексту вимагає більше ресурсних і часових затрат, а на фініші результат буде приблизно однаковим. Тому, щоб виявити повторюється контент, досить обчислити кілька видів контрольних сум і порівняти їх. Розрахунок checksum здійснюють на підставі основного вмісту - «центральний елемент сторінки». При цьому не враховують бічні панелі та колонтитули. Процес визначення дубльованого контенту і його ранжування включає наступні етапи: розрахунок контрольних сум; створення кластера дублікатів; вибір однієї сторінки для показу в результатах пошуку. Завдяки такому підходу Google може визначити не тільки повну, а й частково дубльовану інформацію. Навіщо Google виявляє повторювану інформацію? Є три основні причини, за якими пошукова система визначає дублюючий контент: нелюбов користувачів до подібного контенту в результатах видачі; ліміти вільного простору в пошуковому індексі; відсутність необхідності зберігання дублікатів, які не цікаві користувачам. Завдяки відстеженню дубльованого контенту користувачі зможуть бачити лише ту інформацію, яка їм необхідна і цікава. Порядок вибору канонічної сторінки Після того, як пошукова система визначить сторінки з однаковим контентом, настає процес канонікалізації - вибору головною з них в кластері. Визначити, яку сторінку показувати в результатах пошукової видачі - завдання не з легких. Для цього Google використовує понад 20 сигналів: наявність HTTPS; переадресація; атрибут rel=canonical; pagerank; контент і т. д. Щоб встановити вагу (силу) кожного сигналу, застосовують автоматичні програми. Вручну зробити це досить складно, що зумовлено змінами показників. При зменшенні ваги одного сигналу, вага інших буде збільшуватися. Наприклад, інженер почне налаштовувати один сигнал, що, в результаті, стане причиною перекосу в інших сигналах. І так до нескінченності. Саме тому, щоб спростити процес моніторингу сили кожного сигналу, використовують спеціальні програми та програми. Зверніть увагу, що процес канонікалізаціі жодним чином не перетинається з ранжируванням. Сторінка, яку вибрав Google, буде показуватися в результатах пошукової видачі, проте на підставі інших сигналів (не тих, які враховували при канонікалізаціі). Тепер ви розумієте алгоритм визначення дублів, канонікалізаціі і ранжирування. Якщо вас також цікавить питання впливу дублюючого контенту на сортування сайту в результатах видачі - не хвилюйтеся. Навіть якщо на вашому сайті є однакові опис - це не принесе шкоди пошуковому просуванню сайту. Алгоритми Google відмінно справляються з повторюваною інформацією на ресурсі та будуть його ранжувати. Також у нас є корисний матеріал про причини видалення контенту з пошуку Google. Ознайомитися з ним ви можете за посиланням.