Дублированный контент
- Проблемы с дублирующимся контентом
- с-или-без-www - потенциальный дублированный контент
- Печатные версии и версии для мобильных устройств
- Параметр передает
- Избыточная информация в URL
- Решения для внутреннего дублированного контента
- Использование метатега Noindex
- Использование тега Canonical
- 301 переадресация
- Настройки в Google Webmaster Tools
- Дублированный контент - Резюме
Под дублирующимся содержимым понимается содержимое документов в Интернете, которые очень похожи или даже похожи на содержимое других документов , причем один документ содержит ровно один URL идентифицирован. Для пользователей Google нет смысла отображать одну и ту же информацию несколько раз. Поэтому каждый пытается распознать дубликаты и в расчете SERPs ограничить одним репрезентативным результатом. Именно поэтому подсказка на последней странице результатов поиска часто встречается
Чтобы показать вам наиболее релевантные результаты, мы опустили некоторые записи, очень похожие на те, которые уже отображались.
на MyWebsolution будет Дублированный контент Темы рассматриваются в основном с точки зрения проблем с внешним дублированным контентом, и вводится алгоритм, с помощью которого Google Duplicate может распознавать контент.
Проблемы с дублирующимся контентом
Для домашней страницы «функция» Google распознавания дублированного контента может вызвать некоторые проблемы, если эта домашняя страница содержит страницы, которые доставляют одно и то же содержимое через разные URL-адреса (так называемый внутренний дублированный контент). Прежде чем обсуждать различные решения проблемы Duplicate Content, давайте начнем с краткого раздела, в котором часто встречается Duplicate Cotent.
с-или-без-www - потенциальный дублированный контент
Наиболее ярким примером является доступность страницы с или без ввода www. Standardsubdomain:
- http://www.example.com/
- http://example.com/
Во многих случаях дополнительно определяется файл по умолчанию, который отображается при вводе имени домена. Предполагая, что это файл index.html , URL-адрес http://www.example.com/index.html доступен дополнительно и предоставляет такой же - и, следовательно, дублирующий - контент. Следующий рисунок иллюстрирует этот пример.
Дублирование контента через доступность с или без wwwПроблема с или без www - еще хуже, поскольку обычно она относится не только к стартовой странице, но и к дублированию контента на каждой подстранице!
Настоящая проблема заключается в том, что все версии могут иметь свои входящие ссылки. Нет смысла разделять эти ссылки на несколько URL-адресов , но объединять возможности ссылок в один URL-адрес. Хотя Google пытается выполнить эту консолидацию автоматически, нет гарантии, что она будет работать во всех случаях. Из-за внутреннего дублированного контента мощность ссылок обычно распределяется хуже.
Еще одна проблема с дублирующимся контентом - предпочитаемая Google версия отображаемого URL. Так может быть, например, что Google домен в результатах поиска без www. хотя это всегда на визитных карточках и т. д. всегда с www. печатается.
Печатные версии и версии для мобильных устройств
HTML-страница не очень подходит для печати, поскольку обычно содержит элементы, которые не предоставляют информацию, полезную для печати ( Навигация, нижний колонтитул и т. Д. ). Вот почему это важно Вид юзабилити Смысл предоставить отдельную версию для печати. Это должно как-то вызываться и поэтому имеет свой собственный URL. В то же время, однако, он имеет тот же контент, что и непечатная версия, создавая ситуацию с дублированным контентом.
Та же проблема возникает на домашних страницах, которые предоставляют специальные, оптимизированные для мобильных устройств версии сайта. Как и в случае с печатной версией, некоторые элементы «оригинального» веб-сайта здесь не будут отображаться, но область контента останется прежней, поэтому здесь также будет присутствовать, по сути, дублированный контент.
Для веб-страниц с многомерными структурами навигации общая проблема состоит в том, что целевая страница может быть достигнута различными путями. Особенно в интернет-магазинах часто делятся на иерархические категории, причем подчиненные категории присваиваются различным верхним категориям. На английском языке этот тип навигации называется «граненая навигация». Пример:
- http://www.example.com/shop/moebel/stuehle/holzhocker.html
- http://www.example.com/shop/material/holz/holzhocker.html
Опять же, идея юзабилити находится на переднем плане, потому что продукт «деревянный табурет» относится к разным категориям и также должен быть указан на страницах разных категорий. Тем не менее, разные URL с одинаковым содержанием приводят к дублированию контента.
Параметр передает
URL можно передать после указания пути, инициируемого знаком вопроса. URL-адреса с одинаковыми путями, но разными параметрами превратятся из поисковые системы считается как отдельные URL . Такое поведение имеет смысл, когда вы делаете это Примеры параметров URL Например, отображаемый контент был динамически загружен из базы данных и идентифицирован параметром ID.
Однако параметры также используются для других целей, таких как идентификация сессия , Для пользователей, которые отключают файлы cookie, идентификатор сеанса добавляется к каждой внутренней ссылке на веб-странице. Это создает URL, как показано в следующем списке:
- http://www.example.com/?sid=0011e714c078160254e7374a476ab188
- http://www.example.com/?sid=be30908222d1a60fd8cf7800cfcaa7c7
- http://www.example.com/?sid=e6948c99d871291d0abd4bdbf4d5c7eb
Каждый из этих разных URL-адресов имеет одинаковое содержимое, создавая дублированный контент.
Избыточная информация в URL
Представленное решение для оптимизации структуры URL используя избыточную информацию была проблема, что страница была доступна через несколько URL-адресов. Это также приводит к дублированию контента, поскольку один и тот же контент страницы может вызываться через разные URL-адреса.
Решения для внутреннего дублированного контента
Существует несколько стратегий решения проблем дублирования контента на вашем собственном веб-сайте, три из которых оказались работоспособными. Они будут оценены ниже.
Использование метатега Noindex
Мета-тег Noindex сообщает поисковой системе, что сайт, награжденный для этой цели, не должен быть включен в индекс Google . Это позволяет избежать проблемы, связанной с тем, что Google автоматически выбирает страницу, отображаемую в результатах поиска. Однако это приложение имеет недостаток, поскольку не учитывает объединение ссылок. Особенно с дублированным контентом, созданным различными структурами навигации, вполне возможно, что можно ссылаться на разные внешние URL-адреса. Этот общий ссылка питания будет потрачено впустую. Поэтому использование этого тега для избежания дублирования контента ограничено теми областями, которые никогда не связаны извне. Но так как это никогда не является исключительным на 100%, обычно предпочтительно использовать тег Canonical для обработки дублированного контента .
Использование тега Canonical
Каноническая метка была введена в феврале 2009 года и решает проблемы с дублированием контента. Тег отмечен в области <head> HTML-страницы и имеет синтаксис, представленный в следующем фрагменте исходного кода.
<link rel = "canonical" href = "http://www.example.com/canonical-target" />
На странице отмечен тег, который не должен появляться в результатах поисковых систем, и он содержит в качестве атрибута href URL-адрес для отображения в рейтинге. По сути, это приводит к тому же эффекту, что и при использовании метатегов Noindex (в том смысле, что страница не отображается в индексе и, следовательно, не возникает дублирующегося содержимого), однако якорный текст и PageRank с небольшим штрафом к канонизированной цели. Использование тега Canonical подходит для всех проблем с дублированным контентом, когда различный контент обязательно должен быть доступен через его собственные URL-адреса , поскольку они выполняют свои собственные задачи. Это касается, например, печатных версий или многогранной навигации.
301 переадресация
Самый простой и понятный способ очистки дублированного контента - ответить одним Код статуса HTTP 301 (Перемещено постоянно) на страницах, которые не должны появляться в результатах поиска. Расположение оператора заголовка HTTP : указывает абсолютный URL-адрес, который находит ресурс, на котором находится запрошенный контент. Как и при использовании тегов Canonical , якорный текст и PageRank передаются по назначению перенаправления с определенным мальусом . Мэтт Каттс подтвердил этот недуг в добавлении к интервью с Эриком Энджем stonetemple.com :
[...] Мэтт Каттс: Это хороший вопрос, и я не уверен на 100 процентов в ответе. Я конечно мог видеть, как произошла некоторая потеря PageRank. Я не уверен на 100 процентов, реализовала ли команда сканирования и индексации такое естественное затухание PageRank, поэтому я хочу пойти и проверить этот конкретный случай. (Примечание: в последующем письме Мэтт подтвердил, что это действительно так. [...]
Поскольку страница перенаправляет, она не будет включена в индекс, поэтому дублирование контента не может возникнуть. Вышеупомянутый Малус подтвердил Мэтт Каттс также в одном Скринкаст от 11.04.2011 ,
Эти так называемые перенаправления 301 в основном используются для решения проблемы с или без www-duplicate-content-problem и особенно полезны, когда контент старого домена должен быть доступен в новом. Устранить проблему с или без www можно с помощью файла .htaccess, который должен быть расположен в корневом каталоге веб-пространства и имеет следующее содержимое:
Переписать Engine On
RewriteCond% {HTTP_HOST}! ^ Www \ .example \ .com $ [NC]
RewriteRule ^ (. *) $ Http://www.example.com/$1 [R = 301, L]
В этом случае все запросы будут перенаправлены на версию с www. В целом, редирект 301 также может быть реализован с помощью PHP, например, как этот Совет по перенаправлению PHP показывает. Перенаправление 301 - это первый способ очистки дублированного контента.
Настройки в Google Webmaster Tools
Инструменты Google для веб-мастеров Предложите параметры настройки для двух повторяющихся проблем с содержимым:
- Доступность с и без-www
- параметр
Эти настройки являются Google, но специфичны (и поэтому не учитываются для других поисковых систем) и не имеют других преимуществ по сравнению с вышеупомянутыми параметрами. Они перечислены здесь только для полноты картины. Внимание, скриншоты, к сожалению, уже не актуальны, потому что Google скорректировал обработку параметров в конце июля 2011 года ,
Настройки обработки параметров в Инструментах Google для веб-мастеров против дублирующегося контента Настройки любимого домена в Инструментах Google для веб-мастеровДублированный контент - Резюме
Дублированный контент всегда присутствует при изменении URL, но контент остается тем же. Даже не обязательно, чтобы контент точно совпадал, потому что небольшие отклонения все еще распознаются как так называемый почти дублированный контент. Если Google классифицирует веб-сайт как дублированный контент, то эта страница либо не будет включена в индекс, либо будет оштрафована на штрафы в рейтинге. В ходе Обновления Панды С 2011 года все еще предполагается, что дублированный контент является фактором, который оказывает негативное влияние на настройки локального алгоритма.
Наконец, кратко о наиболее важных фактах о дублированном контенте :
- Дублированный контент возникает, когда разные URL доставляют один и тот же контент
- Дублированный контент может привести к невключению в индекс Google или к недостаткам в рейтинге
- Есть несколько способов избежать дублирования контента, это:
- NoIndex meta day
- Канонический день
- 301 Redirect
«« URL
Метатеги »»
Com/?
Com/?
Com/?