Журнал сервера SEO Insights: что такое «средний» робот Googlebot и Bing Crawl?

Числа статистики сканирования консоли поиска Google не равняются количеству просканированных URL-адресов...
Поведение Google и Bing Crawl не коррелирует
Не беспокойтесь о Yahoo Crawler
Сканирование в поисковых системах: каждый сайт уникален
Если я не могу сравниться, то как я могу использовать данные?
Ванесса Фокс

Все любят ориентиры! Что нормально? Я (я имею в виду, мой сайт) лучше или хуже, чем в среднем?

Поведение сканирования поисковой системы ничем не отличается. Мой сайт сканируется больше или меньше, чем другие сайты? (См. Мой предыдущий пост на Поведение сканирования роботом Google, бюджетирование сканирования и эффективность сканирования .)

Joost de Valk недавно говорил о поведении Google и Bing при сканировании (и SEO-инструментах), связанных с его сайтом yoast.com , Но то, что он видит для своего сайта, «типично»? (Обратите внимание, что он смотрел как на поисковик, так и на SEO-инструменты, но я сосредоточился исключительно на поисковиках. Он также не смотрел на данные, чтобы найти эталонные тесты; его точка зрения касалась потребления энергии, и это хороший момент, но не связано с тем, что я искал для этого поста.)

Keylime Toolbox Crawl Analytics анализирует журналы сервера, чтобы получить представление о поведении сканирования поисковых систем. Я просмотрел 40 базирующихся в США сайтов различного размера и технического состояния (в различных несвязанных отраслях). Самый маленький сайт был менее 200 страниц, а самый большой сайт был более 10 миллионов страниц.

Что я обнаружил? Там нет никаких средних, никаких ориентиров. Как и большая часть SEO, данные полезны только в контексте с вашим собственным сайтом.

Числа статистики сканирования консоли поиска Google не равняются количеству просканированных URL-адресов в день

Как я буду обсуждать в SMX Advanced во время сеанса «Решение сложных проблем SEO, когда стандартные исправления не применяются», Статистика сканирования консоли поиска Google доклады:

Находятся через все сканеры Google не только сканеры, используемые для индексации (и, например, включающие сканирование для AdSense и AdWords).
Страницы отчета сканируются за день, но не уникальные индексируемые страницы . Например, Google может запрашивать одну и ту же страницу несколько раз и может запрашивать все связанные ресурсы для страницы (изображения, файлы CSS, файлы JavaScript и т. Д.). Эти «страницы» также могут быть не индексируемыми (например, могут перенаправлять, быть неканоническими, включать атрибуты anoindex и т. Д.).

Ниже приведен пример отчета об аналитике сканирования Keylime Toolbox (в Excel, который показывает, как URL-адреса можно сканировать несколько раз в день:

А ниже приведен пример сканирования ресурсов. Это Важно, чтобы робот Googlebot мог сканировать эти , но они не индексируются отдельно, поэтому не влияют на общее количество индексируемых URL:

Это означает, что если вы используете статистику сканирования консоли поиска Google «страниц, сканируемых за день», в качестве общей оценки количества индексируемых URL-адресов на вашем сайте, сканируемых за день (например, для подсчета времени, которое потребуется Google для Пересмотрите свой сайт и внесите изменения, которые будут отражены в индексе Google), вы, вероятно, не получите точную оценку.

Вы можете использовать журналы сервера, чтобы определить, сколько уникальных индексируемых URL-адресов Google действительно сканирует за день, просмотрев:

Уникальные URL-адреса (по сравнению с общим количеством запросов) - отчеты Keylime Toolbox сообщают о каждой из этих метрик отдельно.
Уникальные URL, которые возвращают 200 или 304 - Keylime Toolbox, перечисляют их отдельно.

Уникальные URL, которые возвращают 200 или 304 - Keylime Toolbox, перечисляют их отдельно

Уникальные индексируемые URL-адреса - это немного сложнее, но способ, которым я это делаю, - это копировать список URL-адресов, которые возвращают 200 или 304 (из отчета Keylime Toolbox) в отдельный файл Excel, отфильтровывать ресурсы и затем сканировать остальные URL-адреса путем загрузки списка в Кричащая лягушка , Исходя из этого, я могу организовать URL-адреса в noindex, неканонические и канонические. (Чтобы получить список канонических и неканонических URL, я создаю отдельный столбец в Excel и использую формулу = EXACT (A2, V2 ), где A - столбец с просканированным URL, а V - столбец с каноническим значение.)

Из полученного списка канонических URL-адресов могут остаться дубликаты, если канонические атрибуты настроены неправильно, поэтому сортируйте URL-адреса по алфавиту и проверьте этот список на наличие проблем с дублированием, таких как:

URL с косой чертой и без
URL с различным регистром
URL с необязательными параметрами

Обычно вы можете сказать, просматривая, если проблемы дублирования существуют. Если нет, то поздравляю! Итоговый список канонических URL-адресов представляет собой количество уникальных индексируемых URL-адресов, которые Google просканировал в тот день! (Если проблемы с дублированием существуют, этот процесс помогает их идентифицировать, и вы можете в общем случае использовать шаблоны фильтров для дальнейшего сокращения списка до истинного канонического набора.)

Используя этот процесс, вот результаты для двух примеров сайтов:

Сайт 1
- Статистика сканирования GSC - 1,3 миллиона URL-адресов, сканируемых в день
- Анализ журнала сервера Keylime Toolbox - 800k URL, запрошенных Googlebot
- Уникальные индексируемые URL - 1 тыс. URL
Сайт 2
- Статистика сканирования GSC - 120 тысяч URL-адресов, сканируемых за день
- Анализ журнала сервера Keylime Toolbox - 100 000 URL, запрошенных Googlebot
- Уникальные индексируемые URL - 3 тыс. URL

Но даже это не полная картина. Google сканирует некоторые страницы за день, поэтому, если Google сканирует 1 тысячу уникальных страниц каждый день, это не означает, что они сканируют 5 тысяч уникальных страниц за 5 дней. Там часто совпадают изо дня в день (это варьируется от 10% до 8%).

Мои фактические индексируемые URL-адреса, просканированные за день, действительно малы! Что теперь?!

Это проблема, если процент уникальных, индексируемых URL-адресов так мал? Возможно, но, возможно, нет. Google действительно должен сканировать все 404-е, а также перенаправления, ресурсы и неканонические URL-адреса, поэтому цель не состоит в том, чтобы выполнить сканирование до состояния, при котором сканируются только уникальные индексируемые URL-адреса.

Если сайт полностью проиндексирован, а индекс Google, как правило, отражает новейшее содержание сайта, сканирование может быть нормальным. Но если сайт плохо проиндексирован или требуется много времени, чтобы изменения на сайте были отражены в индексе Google, тогда повышение эффективности сканирования может быть более высоким приоритетом, чем они были бы в противном случае.

Поведение Google и Bing Crawl не коррелирует

Я не нашел шаблонов в сканировании Google и Bing для каждого сайта. В некоторых случаях объемы сканирования были одинаковыми. По некоторым сайтам Bing пополз значительно больше. Для других сайтов Google сканировал значительно больше. (Разница варьировалась от Bing, сканирующей только 1% объема Google, до Bing, сканирующей 9 000% объема Google.)

Что это значит? Зависит от сайта. Например: если у сайта есть сложная техническая реализация, с которой у Bing возникают проблемы, Bing может меньше его сканировать или может зацикливаться и больше сканировать. Если Google оштрафовал сайт, он может сканировать его меньше.

Не беспокойтесь о Yahoo Crawler

Yahoo все еще сканирует сеть, но не сильно. Для многих сайтов в моем примере Yahoo сканировал менее ста страниц в день. Для нескольких сайтов Yahoo сканировал около 5 тыс. URL-адресов в день (против миллиона или более запросов от Google), возможно, для извлечения структурированных данных.

Сканирование в поисковых системах: каждый сайт уникален

Сканирование в поисковых системах очень зависит от особенностей сайта.

404 с - почти во всех случаях 404 с и другие ошибки составляли менее 10% сканирования и в большинстве случаев составляли менее 5%. Менее лучше? Может быть, а может и нет. Если обход не содержит 404, возможно, сайт неправильно настроен, например, для возврата кода ответа 200 для недействительных URL.
Перенаправления - процент от 301 и 302 варьировался в широких пределах. Этого следовало ожидать, поскольку некоторые сайты довольно недавно мигрировали с http на https, некоторые изменили свою структуру URL по другим причинам и так далее. Как правило, вы увидите всплеск перенаправлений, если вы выполните какую-либо миграцию, и тогда процент перенаправлений должен уменьшиться после того, как поисковые системы просканируют их все. В примере, который я посмотрел, процент перенаправления составлял от 0% до 60%.

Ниже приведен пример графика Keylime Toolbox, который позволяет отслеживать эти тенденции для вашего сайта:

Уникальные URL - Google часто запрашивает один и тот же URL несколько раз в день. Сигналы могут быть связаны со страницей, которая указывает на то, что она может часто меняться (это домашняя страница, она находится на новостном сайте, содержание действительно сильно меняется). Кроме того, некоторые запросы относятся к ресурсам (таким как файлы CSS или JavaScript), которые могут потребоваться для создания всех страниц сайта. Я не нашел шаблонов в процентах от общего числа уникальных запросов. Процент варьировался от 9% уникальных до 100% уникальных и включал все промежуточное.

На приведенной ниже диаграмме показан процент уникальных URL, просмотренных Google за день (упорядоченный по размеру сайта: самый маленький сайт находится слева, а самый большой - справа).

Этот показатель не может использоваться для непосредственного мониторинга или измерения (для этого нужно посмотреть фактические URL-адреса, просканированные для этого), но он полезен для лучшего понимания сканирования и подсчета времени, которое потребуется для того, чтобы улучшения SEO отразились на производительности. ,

Размер сайта также не обязательно коррелировал с количеством URL-адресов, сканируемых в день, хотя, как правило, Google сканирует больше страниц в день для более крупных сайтов, чем небольших сайтов. На приведенной ниже диаграмме показан размер сайта (синяя линия) по сравнению с количеством (суммарных) URL-адресов, которые Googlebot-запросы запрашивают за день для проанализированного набора данных.

На приведенной ниже диаграмме показан размер сайта (синяя линия) по сравнению с количеством (суммарных) URL-адресов, которые Googlebot-запросы запрашивают за день для проанализированного набора данных

Если я не могу сравниться, то как я могу использовать данные?

Возможно, вы не можете использовать метрики сканирования для бенчмаркинга, но данные полезны во всех отношениях. Ниже приведены лишь несколько примеров. Какие данные важно отслеживать, зависит от сайта.

Сколько уникальных индексируемых страниц действительно сканируется каждый день? Сколько на самом деле потребуется времени, чтобы изменения были отражены в индексе Google?
Является ли эффективность сканирования проблемой? Если сайт достаточно полно сканируется, возможно, нет. Наличие полной картины помогает расставить приоритеты для повышения эффективности сканирования. (Как я расскажу на SMX-сессии, другие данные попадают в эту расстановку приоритетов, например, насколько хорошо сайт проиндексирован и как часто меняется контент сайта.)
По мере внесения улучшений вы можете использовать исходные показатели для отслеживания изменений. Когда вы исправите неработающие ссылки, 404-е должны отключиться. Когда вы перенаправляете неканонические URL-адреса (например, с разными регистрами), число URL-адресов, которые возвращают 200, может кратковременно уменьшаться, а перенаправления могут кратковременно увеличиваться, и соотношение просканированных канонических и неканонических URL-адресов должно смещаться для лучшее.

Конечно, анализ журнала сервера полезен по многим другим причинам. Если вы хотите проверить, какие идеи доступны, проверить детали и взглянуть на процесс импорта журнала сервера. Напишите нам по адресу [email protected] для получения более подробной информации о том, как начать работу с Keylime Toolbox Crawl Analytics. (Это всего лишь $ 49 / месяц для ежедневной обработки журнала!)

Ванесса Фокс

Ванесса была ключевым создателем Центра веб-мастеров, когда она работала в Google, и Keylime Toolbox во многих отношениях является развитием ее работы. В то время как в Google Ванесса взяла информацию, которую она узнала от работы с поисковыми инженерами Google, а также ее прошлый опыт в разработке веб-сайтов, анализ аудитории и разработала инструменты и обучение, которые необходимы владельцам сайтов для поиска Google. Она создала первую версию справочного центра Google для веб-мастеров, управляла блогом для веб-мастеров, открыла форумы для веб-мастеров и возглавила разработку функций в инструментах для веб-мастеров. После Google Ванесса написала «Маркетинг в эпоху Google», в которой изложила свою философию хорошего ранжирования в поисковых системах, понимая аудиторию и решая их проблемы. Она запустила Nine By Blue, где она помогла сотням компаний с поисковой стратегией и техническим SEO. Она также создала программное обеспечение Blueprint Search Analytics, которое она позже продала. Она также продолжала писать и рассказывать о поиске аудитории по всему миру. С Keylime Toolbox она стремится донести до каждого здравый смысл SEO-ресурсов.

Что нормально?
Я (я имею в виду, мой сайт) лучше или хуже, чем в среднем?
Мой сайт сканируется больше или меньше, чем другие сайты?
Com , Но то, что он видит для своего сайта, «типично»?
Что я обнаружил?
Что теперь?
Это проблема, если процент уникальных, индексируемых URL-адресов так мал?
Что это значит?
Менее лучше?
Если я не могу сравниться, то как я могу использовать данные?

ТРАНСПОРТ ДНЕПРОПЕТРОВСКА - Информационный портал