Оптимизация бюджета сканирования: вы - то, что ест робот Google

Оптимизация сканирования должна быть приоритетом для любого крупного сайта, стремящегося улучшить свои усилия по SEO. Отслеживая, отслеживая и фокусируя робот Googlebot, вы можете получить преимущество над конкурентами.

Бюджет сканирования

Важно обсудить основы, прежде чем обсуждать оптимизацию сканирования. Бюджет сканирования - это время или количество страниц, выделяемых Google для сканирования сайта. Как Google определяет ваш бюджет сканирования? Лучшее описание исходит от Эрик Энге, интервью с Мэттом Каттсом ,

Лучший способ думать об этом - то, что количество страниц, которые мы сканируем, примерно пропорционально вашему PageRank. Так что если у вас есть много входящих ссылок на вашей корневой странице, мы обязательно просканируем это. Тогда ваша корневая страница может ссылаться на другие страницы, и они получат PageRank, и мы их тоже просканируем. Однако по мере того, как вы все глубже и глубже осматриваете свой сайт, PageRank имеет тенденцию к снижению.

Еще один способ думать об этом заключается в том, что страницы с низким PageRank на вашем сайте конкурируют с гораздо большим пулом страниц с таким же или более высоким PageRank. В Интернете существует большое количество страниц с очень низким или близким к нулю PageRank. Страницы, на которые ссылаются многие, имеют тенденцию обнаруживаться и сканироваться довольно быстро. Нижние страницы PageRank, скорее всего, будут сканироваться не так часто.

Другими словами, ваш бюджет сканирования определяется полномочиями. Это не должно стать шоком. Но это было до кофеина. С тех пор что-то изменилось?

Кофеин

Что такое кофеин? В этом случае это не стимулятор в вашем латте. Но это своего рода стимулятор. В июне 2010 года Google восстановил способ, которым они проиндексировали контент , Они назвали это изменение «Кофеин», и оно оказало глубокое влияние на скорость, с которой Google может сканировать и индексировать страницы. Самым большим изменением, на мой взгляд, была инкрементная индексация.

Наш старый индекс имел несколько слоев, некоторые из которых обновлялись с большей скоростью, чем другие; основной слой будет обновляться каждые пару недель. Чтобы обновить слой старого индекса, мы проанализировали бы всю сеть, что означало существенную задержку между тем, когда мы нашли страницу и сделали ее доступной для вас.

С помощью Caffeine мы анализируем сеть небольшими порциями и постоянно обновляем наш поисковый индекс по всему миру. По мере нахождения новых страниц или новой информации на существующих страницах мы можем добавлять их прямо в индекс. Это означает, что вы можете найти более свежую информацию, чем когда-либо прежде, независимо от того, когда и где она была опубликована.

По сути, кофеин устранил узкое место для индексации страниц. Система, которую они создали для этого, удачно названа перколятор ,

Мы создали Percolator, систему постепенной обработки обновлений для большого набора данных, и развернули его для создания индекса веб-поиска Google. Заменив систему индексирования на основе пакетов системой индексирования, основанной на пошаговой обработке с использованием Percolator, мы обрабатываем одинаковое количество документов в день, уменьшая при этом средний возраст документов в результатах поиска Google на 50%.

Скорость, с которой Google может сканировать, теперь соответствует скорости индексации. Так увеличился ли в результате бюджет обхода? Некоторые сделали, но не так много, как вы могли бы подозревать. И вот тут это становится интересным.

Робот Google, похоже, готов сканировать больше страниц после кофеина, но он часто сканирует одни и те же страницы (важные страницы) с большей частотой. Это имеет некоторый смысл, если вы думаете об утверждении Мэтта вместе со сравнительным тестом среднего возраста документов. Страницы, которые считаются более авторитетными, получают приоритет сканирования.

Google стремится обеспечить, чтобы самые важные страницы оставались «самыми свежими» в индексе.

Время с момента последнего сканирования

За последние несколько лет я заметил, что страницы, которые не были просканированы в последнее время, получают меньше прав в индексе. Чтобы быть более грубым, если страница не была просканирована недавно, она не будет иметь хорошего рейтинга .

В прошлом году мне позвонил клиент о тенденции к снижению их трафика. Используя продвинутые сегменты, было легко увидеть, что с трафиком на странице их продукта что-то не так.

Просматривая сайт, я обнаружил, что без моего ведома они осуществили нумерацию страниц на страницах результатов своей категории. Вместо того, чтобы все продукты были на одной странице, они были распределены по нескольким страницам.

Продукты, которые были на первой странице результатов, казалось, работали хорошо, а на последующих страницах - нет. Я начал просматривать дату кэширования на страницах продукта и обнаружил, что страдают те, которые не сканировались (я использую дату кэша в качестве прокси для даты сканирования) за последние 7 дней.

Отменить! Отменить! Отменить!

Depagination

Это верно, я сказал им, чтобы вернуться к не разбитым на страницы результаты. Что случилось?

Ты угадал. Трафик вернулся.

С тех пор у меня был успех с депагинацией. Хитрость заключается в том, чтобы думать об этом с точки зрения прогрессивное улучшение и «мобильный» пользовательский опыт.

Рост числа смартфонов и планшетов сделал нумерацию страниц на основе кликов чем-то вроде анахронизма. Выявление большего количества результатов путем прокрутки (или прокрутки) является установленным соглашением и вполне может стать доминирующим в ближайшем будущем.

Можете ли вы загрузить все результаты в фоновом режиме и показать их только тогда, когда пользователи прокрутят их, не сократив время загрузки? Это не всегда легко, и иногда есть компромиссы, но это стоит обсудить с вашей командой.

Потому что нет лучшего способа сканировать эти глубокие страницы, имея ссылки на них на первой странице результатов.

CrawlRank

Неужели я с ума сошел, если подумал, что время с момента последнего сканирования может быть фактором в рейтинге? Оказывается, я был не один. Адам Одетт (умный парень) упомянул, что видел нечто подобное, когда я столкнулся с ним в SMX West. Тогда в SMX Advanced я завел разговор с Митул Ганди , который отслеживал это более подробно на seoClarity ,

Митул и его команда смогли определить, что контент, который не просканировался в течение ~ 14 дней, получает существенно меньше трафика. Не только это, но и частое сканирование тех же самых страниц привело к увеличению трафика. (Подумайте об этом на минуту.)

Сначала Google явно сканирует, используя PageRank в качестве прокси. Но со временем кажется, что они присваивают страницам ссылочный CrawlRank. По сути, если страница не была просканирована в течение определенного периода времени, она получает меньше прав. Давайте еще раз вернемся к описанию Мэттом бюджета обхода.

Еще один способ думать об этом заключается в том, что страницы с низким PageRank на вашем сайте конкурируют с гораздо большим пулом страниц с таким же или более высоким PageRank. В Интернете существует большое количество страниц с очень низким или близким к нулю PageRank.

Страницы, которые сканируются не так часто, являются страницами с минимальным или отсутствующим PageRank. CrawlRank - это разница в этом очень большом пуле страниц.

Вы выиграете, если ваши страницы с низким PageRank сканируются чаще конкурентов.

Теперь CrawlRank действительно говорит о том, что возраст документа является существенным фактором ранжирования для страниц с минимальным или отсутствующим PageRank. Я до сих пор не совсем уверен, что это происходит, но я вижу успех, используя эту философию.

Внутренние ссылки

Можно утверждать, что мы действительно говорим о структуре и плотности внутренних связей. И я бы с тобой согласился!

Ваша внутренняя структура ссылок не только должна поддерживать самые важные страницы вашего сайта, но и должна упростить Google доступ к любой странице вашего сайта за минимальное количество кликов.

Один из самых простых способов определить, какие страницы считаются наиболее важными (на основе структуры внутренних ссылок), - просмотреть отчет «Внутренние ссылки» в Инструментах Google для веб-мастеров.

Один из самых простых способов определить, какие страницы считаются наиболее важными (на основе структуры внутренних ссылок), - просмотреть отчет «Внутренние ссылки» в Инструментах Google для веб-мастеров

Отражают ли страницы вверху самые важные страницы вашего сайта? Если нет, у вас могут быть проблемы.

У меня есть клиент, чей блог получает 35% сканирования Google каждый день. (Подробнее о том, как я узнаю об этом позже.) Это блог с 400 публикациями и общим объемом содержимого более 2 миллионов URL-адресов. Робот Googlebot будет сканировать содержимое блога более 50 000 раз в день! Мы не хотели, чтобы робот Google проводил время.

Эта проблема? У них были ссылки меню на блог и каждую категорию блога почти на всех страницах сайта. Когда я зашел в отчет по внутренним ссылкам в Google Webmaster Tools, вы знаете, какие страницы были наверху? Ага. Блог и категории блога.

Итак, мы избавились от этих ссылок. Он не только изменил плотность внутренних ссылок, но и изменил частоту, с которой робот Googlebot сканирует блог. Это оптимизация сканирования в действии.

Плоская Архитектура

Плоская Архитектура

Помните совет по созданию плоской архитектуры сайта. Многие выбежали и избавились от подпапок, думая, что если в URL нет подпапок, то архитектура будет плоской. Хм ... не так много.

Эти люди уничтожили способность к легкому анализу, потенциально удалены ценные данные при оценке этого сайта и ничего не сделал для решения основной проблемы, связанной с тем, чтобы Google быстрее появлялся на страницах.

Сколько кликов с главной страницы - это каждый фрагмент контента. Вот что было и остается важным. Не имеет значения, является ли URL-адрес domain.com/product-name, если для этого требуется робот Googlebot (и пользователи) за 8 кликов.

В том, что мега-меню на каждой странице действительно оказываете какую-либо услугу? Как только вы попадаете на страницу уровня листьев, вы хотите, чтобы они видели похожие страницы уровня листьев. Связанные ссылки на продукты или контент являются основой любой хорошей структуры внутренних ссылок и, к сожалению, часто упускаются из виду.

Депагинация - это один из способов упорядочить вашу архитектуру, но простой HTML-файл сайта или конкретные AZ-карты сайта часто могут быть очень эффективными взломами.

Плоская архитектура сокращает расстояние между авторитетными страницами и всеми остальными страницами, что увеличивает вероятность частого сканирования страниц с низким PageRank.

Отслеживание Googlebot

«Миллион долларов не круто. Вы знаете, что круто? Миллиард долларов.

Хорошо, Шон Паркер, вероятно, не говорил этого в реальной жизни, но это удачная аналогия для разницы в знании того, сколько страниц сканировал робот Googlebot по сравнению с тем, где сканируется робот Googlebot, как часто и с каким результатом.

График статистики сканирования в Инструментах Google для веб-мастеров показывает только количество сканируемых страниц в день.

В течение почти пяти лет я работал с клиентами над созданием собственных отчетов о сканировании Googlebot.

Это круто.

И это не всегда должно выглядеть красиво, чтобы быть крутым.

И это не всегда должно выглядеть красиво, чтобы быть крутым

Здесь я могу сказать, что есть проблема с этим конкретным типом страницы. Более 50% сканирования на этом типе страницы при создании 410. Это, вероятно, не очень хорошее использование бюджета сканирования.

Все это делается путем разбора или ' оглавлению 'Журнальные файлы (построчную историю посещений сайта) ищут в Googlebot. Вот секрет. Это не так сложно, особенно если вы даже на полпути приличны с регулярными выражениями.

Я не буду вдаваться в подробности (этот пост достаточно длинный), но вы можете проверить сообщения по Ян Лурье а также Крейг Брэдфорд для получения дополнительной информации о том, как grep файлы журнала.

В конце я заинтересован в просмотре по типу страницы и коду ответа.

Вы определяете тип страницы, используя RegEx. Это звучит загадочно, но все, что вы делаете, это группирование типов страниц на основе сопоставления с шаблоном.

Я хочу знать, где робот Google проводит время на моем сайте. Как Майк Кинг сказал, Googlebot всегда ваша последняя персона. Так что отслеживание Googlebot - это еще одна форма мониторинга пользовательского опыта. (Ссылка на это может помочь вам определить приоритетность этого проекта.)

Вы также можете поместить данные обхода в базу данных, чтобы можно было запрашивать такие данные, как время с момента последнего обхода, общее сканирование или уникальное сканирование или сканирование на странице. Конечно, вы также можете попробовать seoClarity, так как у них есть много всего этого прямо из коробки.

Если вы не отслеживаете Googlebot, то пропускаете первую часть процесса SEO.

Вы то, что ест робот Googlebot

Что вы начинаете понимать, так это то, что вы оценивались на основе того, что сканирует робот Google. Так что, если они сканируют целую кучу основанных на параметрах, дублирующих URL-адресов или вы оставили ссылку «Отправить другу по электронной почте» открытой для сканирования по каждому отдельному продукту, вы даете Googlebot кучу пустых калорий.

Дело не в том, что Google накажет вас, а в альтернативных затратах для грязной архитектуры, основанных на конечном бюджете сканирования .

Сканирование, потраченное на мусор, могло бы быть потрачено на сканирование страниц с низким PageRank. Таким образом, мудрое управление параметрами URL и использование robots.txt могут иметь большое значение.

Многие крупные сайты также будут иметь надежные графы внешних ссылок. Я могу использовать эти внешние ссылки, меньше полагаться на плотность внутренних ссылок для хорошего ранжирования и могу сфокусировать мою внутреннюю структуру ссылок, чтобы обеспечить более частый просмотр страниц с низким PageRank.

Там нет патента правильный или неправильный ответ. Каждый сайт будет отличаться. Но экспериментирование с вашими внутренними стратегиями связей и измерение результатов - это то, что отличает хорошее от хорошего.

Контрольный список оптимизации сканирования

Вот быстрый контрольный список оптимизации сканирования, чтобы вы могли начать.

Отслеживание и мониторинг Googlebot

Мне все равно, как вы это делаете, но вам нужен этот вид видимости, чтобы проникнуть в оптимизацию сканирования. Информация это сила. Учитесь grep, совершенствуйте свой RegEx. Будьте совместным партнером с вашей технической командой, чтобы превратить это в автоматизированный ежедневный процесс.

Управление параметрами URL

Да, это сбивает с толку. Вы, вероятно, сделаете несколько ошибок. Но это не должно помешать вам использовать эту функцию и изменить диету Googlebot.

Используйте Robots.txt с умом

Хватит кормить Googlebot пустыми калориями. Используйте robots.txt, чтобы держать Googlebot сфокусированным, и не забывайте использовать сопоставление с образцом.

Не забудьте HTML Sitemap (ы)

Шутки в сторону. Я знаю, что пользователи могут не использовать их, но Googlebot - это другой тип пользователя с немного разными потребностями.

Оптимизируйте свою внутреннюю структуру ссылок

Независимо от того, пытаетесь ли вы использовать детализацию, чтобы сгладить архитектуру, переоценить навигационные меню или поиграть с кросс-модулями, найдите способы оптимизировать внутреннюю структуру ссылок, чтобы эти страницы с низким PageRank сканировались чаще.

Следующее сообщение: Авторство умерло, да здравствует авторство
Предыдущий пост: Ключевые слова по-прежнему имеют значение

Как Google определяет ваш бюджет сканирования?
С тех пор что-то изменилось?
Так увеличился ли в результате бюджет обхода?
Что случилось?
Отражают ли страницы вверху самые важные страницы вашего сайта?
Эта проблема?
Когда я зашел в отчет по внутренним ссылкам в Google Webmaster Tools, вы знаете, какие страницы были наверху?
Вы знаете, что круто?

Читайте так же:

  • Лимо-такси (LIMO-TAXI)
  • По Днепру была запущена «речная маршрутка»
  • Эконом такси Чайка
  • Трамвайные линии Екатеринослава 1897-1906 гг.
  • Каприз такси

Комментарии запрещены.

Новости