Дублированный контент

Проблемы с дублирующимся контентом
с-или-без-www - потенциальный дублированный контент
Печатные версии и версии для мобильных устройств
Параметр передает
Избыточная информация в URL
Решения для внутреннего дублированного контента
Использование метатега Noindex
Использование тега Canonical
301 переадресация
Настройки в Google Webmaster Tools
Дублированный контент - Резюме

Под дублирующимся содержимым понимается содержимое документов в Интернете, которые очень похожи или даже похожи на содержимое других документов , причем один документ содержит ровно один URL идентифицирован. Для пользователей Google нет смысла отображать одну и ту же информацию несколько раз. Поэтому каждый пытается распознать дубликаты и в расчете SERPs ограничить одним репрезентативным результатом. Именно поэтому подсказка на последней странице результатов поиска часто встречается

Чтобы показать вам наиболее релевантные результаты, мы опустили некоторые записи, очень похожие на те, которые уже отображались.

на MyWebsolution будет Дублированный контент Темы рассматриваются в основном с точки зрения проблем с внешним дублированным контентом, и вводится алгоритм, с помощью которого Google Duplicate может распознавать контент.

Проблемы с дублирующимся контентом

Для домашней страницы «функция» Google распознавания дублированного контента может вызвать некоторые проблемы, если эта домашняя страница содержит страницы, которые доставляют одно и то же содержимое через разные URL-адреса (так называемый внутренний дублированный контент). Прежде чем обсуждать различные решения проблемы Duplicate Content, давайте начнем с краткого раздела, в котором часто встречается Duplicate Cotent.

с-или-без-www - потенциальный дублированный контент

Наиболее ярким примером является доступность страницы с или без ввода www. Standardsubdomain:

http://www.example.com/
http://example.com/

Во многих случаях дополнительно определяется файл по умолчанию, который отображается при вводе имени домена. Предполагая, что это файл index.html , URL-адрес http://www.example.com/index.html доступен дополнительно и предоставляет такой же - и, следовательно, дублирующий - контент. Следующий рисунок иллюстрирует этот пример.

Дублирование контента через доступность с или без www

Проблема с или без www - еще хуже, поскольку обычно она относится не только к стартовой странице, но и к дублированию контента на каждой подстранице!

Настоящая проблема заключается в том, что все версии могут иметь свои входящие ссылки. Нет смысла разделять эти ссылки на несколько URL-адресов , но объединять возможности ссылок в один URL-адрес. Хотя Google пытается выполнить эту консолидацию автоматически, нет гарантии, что она будет работать во всех случаях. Из-за внутреннего дублированного контента мощность ссылок обычно распределяется хуже.

Еще одна проблема с дублирующимся контентом - предпочитаемая Google версия отображаемого URL. Так может быть, например, что Google домен в результатах поиска без www. хотя это всегда на визитных карточках и т. д. всегда с www. печатается.

Печатные версии и версии для мобильных устройств

HTML-страница не очень подходит для печати, поскольку обычно содержит элементы, которые не предоставляют информацию, полезную для печати ( Навигация, нижний колонтитул и т. Д. ). Вот почему это важно Вид юзабилити Смысл предоставить отдельную версию для печати. Это должно как-то вызываться и поэтому имеет свой собственный URL. В то же время, однако, он имеет тот же контент, что и непечатная версия, создавая ситуацию с дублированным контентом.

Та же проблема возникает на домашних страницах, которые предоставляют специальные, оптимизированные для мобильных устройств версии сайта. Как и в случае с печатной версией, некоторые элементы «оригинального» веб-сайта здесь не будут отображаться, но область контента останется прежней, поэтому здесь также будет присутствовать, по сути, дублированный контент.

Для веб-страниц с многомерными структурами навигации общая проблема состоит в том, что целевая страница может быть достигнута различными путями. Особенно в интернет-магазинах часто делятся на иерархические категории, причем подчиненные категории присваиваются различным верхним категориям. На английском языке этот тип навигации называется «граненая навигация». Пример:

http://www.example.com/shop/moebel/stuehle/holzhocker.html
http://www.example.com/shop/material/holz/holzhocker.html

Опять же, идея юзабилити находится на переднем плане, потому что продукт «деревянный табурет» относится к разным категориям и также должен быть указан на страницах разных категорий. Тем не менее, разные URL с одинаковым содержанием приводят к дублированию контента.

Параметр передает

URL можно передать после указания пути, инициируемого знаком вопроса. URL-адреса с одинаковыми путями, но разными параметрами превратятся из поисковые системы считается как отдельные URL . Такое поведение имеет смысл, когда вы делаете это Примеры параметров URL Например, отображаемый контент был динамически загружен из базы данных и идентифицирован параметром ID.

Однако параметры также используются для других целей, таких как идентификация сессия , Для пользователей, которые отключают файлы cookie, идентификатор сеанса добавляется к каждой внутренней ссылке на веб-странице. Это создает URL, как показано в следующем списке:

http://www.example.com/?sid=0011e714c078160254e7374a476ab188
http://www.example.com/?sid=be30908222d1a60fd8cf7800cfcaa7c7
http://www.example.com/?sid=e6948c99d871291d0abd4bdbf4d5c7eb

Каждый из этих разных URL-адресов имеет одинаковое содержимое, создавая дублированный контент.

Избыточная информация в URL

Представленное решение для оптимизации структуры URL используя избыточную информацию была проблема, что страница была доступна через несколько URL-адресов. Это также приводит к дублированию контента, поскольку один и тот же контент страницы может вызываться через разные URL-адреса.

Решения для внутреннего дублированного контента

Существует несколько стратегий решения проблем дублирования контента на вашем собственном веб-сайте, три из которых оказались работоспособными. Они будут оценены ниже.

Использование метатега Noindex

Мета-тег Noindex сообщает поисковой системе, что сайт, награжденный для этой цели, не должен быть включен в индекс Google . Это позволяет избежать проблемы, связанной с тем, что Google автоматически выбирает страницу, отображаемую в результатах поиска. Однако это приложение имеет недостаток, поскольку не учитывает объединение ссылок. Особенно с дублированным контентом, созданным различными структурами навигации, вполне возможно, что можно ссылаться на разные внешние URL-адреса. Этот общий ссылка питания будет потрачено впустую. Поэтому использование этого тега для избежания дублирования контента ограничено теми областями, которые никогда не связаны извне. Но так как это никогда не является исключительным на 100%, обычно предпочтительно использовать тег Canonical для обработки дублированного контента .

Использование тега Canonical

Каноническая метка была введена в феврале 2009 года и решает проблемы с дублированием контента. Тег отмечен в области <head> HTML-страницы и имеет синтаксис, представленный в следующем фрагменте исходного кода.

На странице отмечен тег, который не должен появляться в результатах поисковых систем, и он содержит в качестве атрибута href URL-адрес для отображения в рейтинге. По сути, это приводит к тому же эффекту, что и при использовании метатегов Noindex (в том смысле, что страница не отображается в индексе и, следовательно, не возникает дублирующегося содержимого), однако якорный текст и PageRank с небольшим штрафом к канонизированной цели. Использование тега Canonical подходит для всех проблем с дублированным контентом, когда различный контент обязательно должен быть доступен через его собственные URL-адреса , поскольку они выполняют свои собственные задачи. Это касается, например, печатных версий или многогранной навигации.

301 переадресация

Самый простой и понятный способ очистки дублированного контента - ответить одним Код статуса HTTP 301 (Перемещено постоянно) на страницах, которые не должны появляться в результатах поиска. Расположение оператора заголовка HTTP : указывает абсолютный URL-адрес, который находит ресурс, на котором находится запрошенный контент. Как и при использовании тегов Canonical , якорный текст и PageRank передаются по назначению перенаправления с определенным мальусом . Мэтт Каттс подтвердил этот недуг в добавлении к интервью с Эриком Энджем stonetemple.com :

[...] Мэтт Каттс: Это хороший вопрос, и я не уверен на 100 процентов в ответе. Я конечно мог видеть, как произошла некоторая потеря PageRank. Я не уверен на 100 процентов, реализовала ли команда сканирования и индексации такое естественное затухание PageRank, поэтому я хочу пойти и проверить этот конкретный случай. (Примечание: в последующем письме Мэтт подтвердил, что это действительно так. [...]

Поскольку страница перенаправляет, она не будет включена в индекс, поэтому дублирование контента не может возникнуть. Вышеупомянутый Малус подтвердил Мэтт Каттс также в одном Скринкаст от 11.04.2011 ,

Эти так называемые перенаправления 301 в основном используются для решения проблемы с или без www-duplicate-content-problem и особенно полезны, когда контент старого домена должен быть доступен в новом. Устранить проблему с или без www можно с помощью файла .htaccess, который должен быть расположен в корневом каталоге веб-пространства и имеет следующее содержимое:

Переписать Engine On
RewriteCond% {HTTP_HOST}! ^ Www \ .example \ .com $ [NC]
RewriteRule ^ (. *) $ Http://www.example.com/$1 [R = 301, L]

В этом случае все запросы будут перенаправлены на версию с www. В целом, редирект 301 также может быть реализован с помощью PHP, например, как этот Совет по перенаправлению PHP показывает. Перенаправление 301 - это первый способ очистки дублированного контента.

Настройки в Google Webmaster Tools

Инструменты Google для веб-мастеров Предложите параметры настройки для двух повторяющихся проблем с содержимым:

Доступность с и без-www
параметр

Эти настройки являются Google, но специфичны (и поэтому не учитываются для других поисковых систем) и не имеют других преимуществ по сравнению с вышеупомянутыми параметрами. Они перечислены здесь только для полноты картины. Внимание, скриншоты, к сожалению, уже не актуальны, потому что Google скорректировал обработку параметров в конце июля 2011 года ,

Настройки обработки параметров в Инструментах Google для веб-мастеров против дублирующегося контента

Настройки любимого домена в Инструментах Google для веб-мастеров