Как сканировать большие сайты

Как сканировать большие сайты с помощью SEO Spider Обход веб-сайтов и сбор данных - это процесс,...
Каковы различия между памятью и базой данных?
Память для хранения
Хранение базы данных
Вам действительно нужно сканировать весь сайт?
1) Переключиться на хранилище базы данных
2) Увеличить выделение памяти
3) Отрегулируйте, что сканировать в конфигурации
4) Исключить ненужные URL
5) Сканирование в разделах (поддомен или подпапки)
6) Сузить сканирование, используя Включить
7) Ограничить сканирование для лучшей выборки
8) Купить внешний SSD с USB 3.0 (+)
9) Запустите SEO Spider в облаке с SSD и большим количеством оперативной памяти
10) Не забывайте регулярно сохранять
Счастливого Ползания!

Как сканировать большие сайты с помощью SEO Spider
Обход веб-сайтов и сбор данных - это процесс, требующий большого объема памяти, и чем больше вы сканируете, тем больше памяти требуется для хранения и обработки данных. Кричащая лягушка SEO Spider использует настраиваемый гибридный движок, который требует некоторых настроек для крупномасштабного сканирования.
По умолчанию SEO Spider использует оперативную память, а не жесткий диск для хранения и обработки данных. Это обеспечивает удивительные преимущества, такие как скорость и гибкость, но у него также есть недостатки, в особенности, ползание в масштабе.
SEO Spider также можно настроить для сохранения данных сканирования на диск, выбрав режим «Хранилище базы данных» (в разделе «Конфигурация> Система> Хранилище»), который позволяет сканировать данные в действительно беспрецедентном масштабе, сохраняя при этом тот же знакомый реальный время отчетности и удобство использования.

TL; DR версия

Если вы не хотите читать полное руководство ниже, ниже приведены два основных требования для сканирования очень больших веб-сайтов.

1) Используйте машину с внутренним SSD и переключитесь в режим хранения базы данных («Конфигурация> Система> Хранилище»).

2) Выделите ОЗУ («Конфигурация> Система> Память»). Выделенное 8gb позволит ок. 5 миллионов URL для сканирования.

В приведенном ниже руководстве представлен более полный обзор различий между памятью и хранилищем базы данных, идеальной настройкой для сканирования больших веб-сайтов и способами интеллектуального сканирования, чтобы избежать ненужной траты времени и ресурсов.

Каковы различия между памятью и базой данных?

По сути, оба режима хранения могут по-прежнему обеспечивать практически одинаковое сканирование, позволяя создавать отчеты, фильтровать и настраивать сканирование в режиме реального времени. Однако существуют некоторые ключевые различия, и идеальное хранилище будет зависеть от сценария сканирования и технических характеристик компьютера.

Память для хранения

Режим хранения в памяти позволяет осуществлять сверхбыстрое и гибкое сканирование практически для всех настроек. Однако, поскольку машины имеют меньше оперативной памяти, чем пространство на жестком диске, это означает, что SEO Spider, как правило, лучше подходит для сканирования сайтов с URL-адресами 500 000 в режиме хранения в памяти.

Пользователи могут сканировать больше, чем при правильной настройке, и в зависимости от того, насколько интенсивно выполняется сканирование сайта. Как очень грубое руководство, 64-битный компьютер с 8 ГБ оперативной памяти, как правило, позволяет сканировать пару сотен тысяч URL-адресов.

Помимо того, что это лучший вариант для небольших веб-сайтов, режим хранения в памяти также рекомендуется для компьютеров без SSD или там, где мало места на диске.

Хранение базы данных

Мы рекомендуем использовать его как хранилище по умолчанию для пользователей с твердотельным накопителем и для сканирования в масштабе. Режим хранения базы данных позволяет сканировать больше URL-адресов для заданного параметра памяти с близкой к скорости сканирования памяти ОЗУ для установок с твердотельным накопителем (SSD).

Ограничение сканирования по умолчанию составляет 5 миллионов URL-адресов, но это не жесткое ограничение - SEO Spider способен сканировать значительно больше (при правильной настройке). Например, машина с твердотельным накопителем на 500 ГБ и 16 ГБ ОЗУ должна позволять вам сканировать приблизительно до 10 миллионов URL-адресов.

Хотя это и не рекомендуется, если у вас есть быстрый жесткий диск (HDD), а не проданный диск состояния (SSD), тогда этот режим все же может позволить вам сканировать больше URL-адресов. Однако скорость записи и чтения жесткого диска становится узким местом при сканировании, поэтому и скорость сканирования, и сам интерфейс будут значительно медленнее.

Если вы работаете на машине во время сканирования, это также может повлиять на производительность машины, поэтому скорость сканирования может потребоваться уменьшить, чтобы справиться с нагрузкой. Твердотельные накопители настолько быстры, что, как правило, у них нет этой проблемы, и именно поэтому «хранилище базы данных» можно использовать по умолчанию как для малых, так и для больших обходов.

Вам действительно нужно сканировать весь сайт?

Это вопрос, который мы всегда рекомендуем задавать. Вам нужно сканировать каждый URL, чтобы получить данные, которые вам нужны?

Опытные оптимизаторы знают, что часто это просто не требуется. Как правило, веб-сайты являются шаблонными, и выборочного сканирования типов страниц из разных разделов будет достаточно для принятия обоснованных решений на более широком сайте.

Итак, зачем сканировать 5 миллионов URL, когда достаточно 50 тысяч? С помощью нескольких простых настроек вы можете избежать затрат ресурсов и времени на них (подробнее о настройке сканирования в ближайшее время).

Стоит помнить, что сканирование больших сайтов требует ресурсов, но также требует много времени (и затрат на некоторые решения). Веб-сайт на 1 миллион страниц со средней скоростью сканирования 5 URL-адресов в секунду будет сканироваться в течение двух дней. Вы можете сканировать быстрее, но большинство веб-сайтов и серверов не хотят сканировать быстрее, чем такая скорость.

При рассмотрении масштаба необходимо учитывать не только уникальные страницы или собранные данные, но и фактически внутренние ссылки на веб-сайт. SEO Spider записывает каждую отдельную ссылку или ресурс (и ресурс), что означает 100-страничный веб-сайт с 100 ссылками на каждую страницу, что на самом деле означает запись более 10 миллионов ссылок.

Однако, с учетом вышесказанного, бывают случаи, когда полный обход необходим. Вам может потребоваться сканировать большой веб-сайт целиком, или, возможно, веб-сайт находится на корпоративном уровне с 50-миллионными страницами, и вам нужно сканировать больше, чтобы даже получить точный образец. В этих сценариях мы рекомендуем следующий подход для сканирования больших веб-сайтов.

1) Переключиться на хранилище базы данных

Мы рекомендуем использовать SSD и перейти в режим хранения базы данных. Если у вас нет SSD, мы настоятельно рекомендуем инвестировать. Это единственное крупнейшее обновление, которое вы можете сделать для машины при сравнительно небольших затратах и позволяющее сканировать в огромных масштабах без ущерба для производительности.

Пользователи могут выбрать сохранение на диск, выбрав «Режим хранения базы данных» в интерфейсе (через «Конфигурация> Система> Хранилище»).

Если у вас нет SSD (купите его сейчас!), Вы можете проигнорировать этот шаг и просто следовать остальным рекомендациям в этом руководстве. Стоит отметить, вы можете использовать внешний SSD с USB 3.0 если ваша система поддерживает режим UASP.

2) Увеличить выделение памяти

SEO Spider стандартно выделяет всего 1 ГБ ОЗУ для 32-битных компьютеров и 2 ГБ ОЗУ для 64-битных. В режиме хранения в памяти это должно позволить вам сканировать 10-150 тыс. URL-адресов веб-сайта. В режиме хранения базы данных это должно позволить вам сканировать примерно 1-2 миллиона URL-адресов.

Объем выделенной оперативной памяти будет влиять на количество URL-адресов, которые вы можете сканировать как в режиме хранения памяти, так и в режиме хранения базы данных, но гораздо более существенно в режиме хранения памяти.

В режиме хранения ОЗУ мы рекомендуем минимум 8 ГБ ОЗУ для сканирования больших веб-сайтов с несколькими сотнями тысяч страниц. Но чем больше у вас оперативной памяти, тем лучше!

Для хранения базы данных 8 ГБ ОЗУ позволят сканировать до 5 миллионов URL-адресов, 16 ГБ для 10 миллионов и 32 ГБ ОЗУ для более 20 миллионов URL-адресов. Это все приближения, так как это зависит от сайта.

В режиме хранения базы данных, SEO Spider будет использовать до суммы, которую вы выделяете в памяти, перед сохранением на диск. Итак, если вы хотите сохранить на диск раньше, выделите меньше оперативной памяти.

Вы можете настроить распределение памяти в SEO Spider, нажав «Конфигурация> Система> Память».

Мы всегда рекомендуем выделять как минимум на 2 ГБ меньше общей доступной оперативной памяти. Если вы выделите общий объем ОЗУ, вы можете столкнуться с сбоем, поскольку вашей операционной системе и другим приложениям также потребуется ОЗУ для работы.

SEO Spider использует память только тогда, когда это необходимо, и это просто означает, что у вас есть максимум доступного вам, если и когда вам это нужно.

Если вы не настроили память и не достигли предела выделения памяти, вы получите следующее предупреждение.

Если вы не настроили память и не достигли предела выделения памяти, вы получите следующее предупреждение

Это предупреждает вас о том, что SEO Spider достиг текущего объема памяти и его нужно увеличить, чтобы сканировать больше URL-адресов, иначе он станет нестабильным.

Для увеличения памяти, прежде всего, вы должны сохранить сканирование через меню «Файл»> «Сохранить». Затем можно настроить распределение памяти, а затем открыть сохраненный обход и возобновить сканирование еще раз.

Чем больше памяти вы сможете выделить, тем больше вы сможете сканировать. Поэтому, если у вас нет машины с большим объемом ОЗУ, мы рекомендуем использовать более мощный компьютер или увеличить объем ОЗУ.

3) Отрегулируйте, что сканировать в конфигурации

Чем больше данных собирается и чем больше сканируется, тем интенсивнее будет использование памяти. Таким образом, вы можете рассмотреть варианты снижения потребления памяти для более легкого сканирования.

Отмена выбора следующих параметров в «Конфигурация> Паук» поможет сэкономить память -

Проверьте изображения ,
Проверьте CSS ,
Проверьте JavaScript ,
Проверьте SWF ,
Проверьте внешние ссылки ,

Обратите внимание, если вы ползете в JavaScript рендеринг В этом режиме вам, вероятно, понадобится включить большинство этих опций, иначе это повлияет на рендер. Пожалуйста, посмотрите наш Как сканировать сайты JavaScript ' руководство.

Вы также можете отменить выбор следующих параметров сканирования в разделе «Конфигурация> Паук», чтобы сэкономить память.

Ползать канонические - Этот параметр влияет только на сканирование, они будут по-прежнему извлечены, если отменить выбор.
Crawl Next / Prev - Этот параметр влияет только на сканирование, они будут по-прежнему извлечены, если отменить выбор.
Экстракт Хрефланг - Эта опция означает, что URL-адреса в hreflang не будут извлечены вообще.
Ползти Hreflang - Эта опция означает, что URL-адреса в hreflang не будут сканироваться.

Есть также другие варианты, которые будут использовать память, если она используется, поэтому не используйте следующие функции:

Пользовательский поиск ,
Выборочная добыча ,
Интеграция с Google Analytics ,
Интеграция Google Search Console ,
Интеграция метрик ссылок ( величавый , Ahrefs а также Мос ).

Это означает, что меньше данных, меньше сканирования и меньше потребление памяти.

4) Исключить ненужные URL

Использовать исключать функция, чтобы избежать сканирования ненужных URL-адресов. Это могут быть целые разделы, фасетные навигационные фильтры, конкретные параметры URL-адресов или бесконечные URL-адреса с повторяющимися каталогами и т. Д.

Функция исключения позволяет полностью исключить URL-адреса из сканирования, предоставляя список регулярных выражений списка (регулярное выражение). URL, соответствующий исключению, вообще не сканируется (он не просто «скрыт» в интерфейсе). Следует также иметь в виду, что это будет означать, что другие URL-адреса, которые не соответствуют исключению, но могут быть доступны только с исключенной страницы, также не будут сканироваться. Так что используйте исключение с осторожностью.

Мы рекомендуем выполнить сканирование и упорядочить URL-адреса на вкладке «Внутренние» в алфавитном порядке, а также проанализировать их на предмет наличия шаблонов и областей для возможного исключения в режиме реального времени. Как правило, прокручивая список в реальном времени и анализируя URL-адреса, вы можете составить список URL-адресов для исключения.

Например, сайты электронной коммерции часто имеют граненые навигации, которые позволяют пользователям фильтровать и сортировать, что может привести к большому количеству URL. Иногда их можно сканировать в другом порядке, что приводит к множеству или бесконечному количеству URL.

Давайте возьмем сценарий из реальной жизни, как Джон Льюис. Если вы сканируете сайт со стандартными настройками, из-за его многочисленных аспектов, вы можете легко сканировать отфильтрованные страницы, как показано ниже.

Если вы сканируете сайт со стандартными настройками, из-за его многочисленных аспектов, вы можете легко сканировать отфильтрованные страницы, как показано ниже

При выборе этих аспектов создаются URL-адреса, такие как -

https://www.johnlewis.com/browse/men/mens-trousers/adidas/allsaints/gant-rugger/hymn/kin-by-john-lewis/selected-femme/homme/size=36r/_/N- ebiZ1z13yvxZ1z0g0g6Z1z04nruZ1z0s0laZ1z13u9cZ1z01kl3Z1z0swk1

Этот URL имеет несколько брендов, размер брюк и выбранный вариант доставки. Есть также грани для цвета, подгонка брюк и многое другое! Различное количество комбинаций, которые могут быть выбраны, практически бесконечно, и их следует учитывать для исключения.

Упорядочив URL-адреса на вкладке «Внутренние» в алфавитном порядке, можно легко определить такие шаблоны URL для потенциального исключения. Мы также можем видеть, что URL-адреса из фасетов Джона Льюиса в любом случае имеют значение noindex. Следовательно, мы можем просто исключить их из сканирования.

После того как у вас есть образец URL-адресов и определена проблема, обычно нет необходимости сканировать каждый аспект и комбинацию. Они также могут быть канонизированы, запрещены или noindex, так что вы знаете, что они уже «исправлены», и их можно просто исключить.

5) Сканирование в разделах (поддомен или подпапки)

Если веб-сайт очень большой, вы можете рассмотреть его в разделах. По умолчанию SEO Spider будет сканировать только введенный субдомен, а все остальные обнаруженные субдомены будут рассматриваться как внешние (и отображаются на вкладке «внешние»). Вы можете выбрать сканировать все субдомены , но, очевидно, это займет больше памяти.

SEO Spider также можно настроить для сканирования подпапки, просто введя URI подпапки с путем к файлу и убедитесь, что «проверка ссылок вне стартовой папки» и «обход контента вне стартовой папки» не выбраны в «Конфигурация> Паук». Например, чтобы сканировать наш блог, вам нужно просто ввести https://www.screamingfrog.co.uk/blog/ и нажать «Старт».

Обратите внимание, что если в конце подпапки нет косой черты, например «/ blog» вместо «/ blog /», SEO Spider в настоящее время не распознает ее как подпапку и не сканирует ее. , Если версия вложенной косой черты в подпапке перенаправляется на версию без косой черты, то применяется то же самое.

Для сканирования этой подпапки вам необходимо использовать включить функцию и введите регулярное выражение этой подпапки (. * blog. * в этом примере).

6) Сузить сканирование, используя Включить

Вы можете использовать включить функцию контролировать, какой путь URL будет сканировать SEO Spider через регулярные выражения. Он сужает поиск по умолчанию, сканируя только те URL-адреса, которые соответствуют регулярному выражению, что особенно полезно для крупных сайтов или сайтов с менее интуитивно понятными структурами URL-адресов.

Соответствие выполняется на URL-кодированной версии URL-адреса. Страница, с которой вы запускаете сканирование, должна иметь исходящую ссылку, которая соответствует регулярному выражению, чтобы эта функция работала. Очевидно, что если на стартовой странице нет URL, соответствующего регулярному выражению, SEO Spider не будет сканировать что-либо!

Например, если вы хотите сканировать страницы с https://www.screamingfrog.co.uk, в которых есть «поиск» в строке URL, вы просто включили бы регулярное выражение:. * Search. * В функцию «включить».

* В функцию «включить»

Это позволит найти страницы / search-engine-marketing / и / search-engine-optimisation /, так как в них есть «поиск».

Это позволит найти страницы / search-engine-marketing / и / search-engine-optimisation /, так как в них есть «поиск»

7) Ограничить сканирование для лучшей выборки

Существуют различные ограничения, которые помогают контролировать сканирование SEO Spider и позволяют получать образцы страниц по всему сайту, не сканируя все. Они включают -

Всего предельного сканирования - Ограничить общее количество просканированных страниц в целом. Просмотрите сайт, чтобы получить приблизительную оценку того, сколько может потребоваться для сканирования широкого выбора шаблонов и типов страниц.
Предельная глубина сканирования - Ограничьте глубину сканирования до ключевых страниц, позволяя получить достаточную глубину, чтобы получить образец всех шаблонов.
Максимальная длина URI для сканирования - Избегайте сканирования неправильных относительных ссылок или очень глубоких URL-адресов, ограничивая длину строки URL-адреса.
Максимальная глубина папки - Ограничьте сканирование глубиной папки, что может быть более полезно для сайтов с интуитивно понятными структурами.
Ограничить количество строк запроса - Ограничить обход множества фасетов и параметров по количеству строк запроса. Установив ограничение строки запроса на «1», вы разрешаете SEO-пауку сканировать URL-адрес с одним параметром (например,? = Цвет), но не больше. Это может быть полезно, когда различные параметры могут быть добавлены к URL в разных комбинациях!

8) Купить внешний SSD с USB 3.0 (+)

Если у вас нет внутреннего SSD и вы хотите сканировать большие веб-сайты в режиме хранения базы данных, тогда внешний SSD может помочь.

Важно убедиться, что на вашей машине есть порт USB 3.0 и ваша система поддерживает режим UASP. Большинство новых систем работают автоматически, если у вас уже есть оборудование USB 3.0. При подключении внешнего SSD убедитесь, что вы подключены к порту USB 3.0, иначе чтение и запись будут очень медленными.

Порты USB 3.0 обычно имеют синий цвет (как рекомендуется в их спецификации), но не всегда; и вам, как правило, потребуется подключить USB-кабель синего цвета к синему порту USB 3.0. После этого вам нужно переключиться в режим хранения базы данных, а затем выбрать расположение базы данных на внешнем SSD (диск «D» в примере ниже).

После этого вам нужно переключиться в режим хранения базы данных, а затем выбрать расположение базы данных на внешнем SSD (диск «D» в примере ниже)

Просто!

9) Запустите SEO Spider в облаке с SSD и большим количеством оперативной памяти

Если вам все еще нужно сканировать больше, но у вас нет мощной машины с твердотельным накопителем или большим количеством оперативной памяти, подумайте о запуске SEO Spider в облаке и убедитесь, что у него есть твердотельный накопитель, и вы переключитесь в режим «хранилище базы данных», и выделение глупых объемов оперативной памяти.

Есть несколько действительно полных руководств, которые мы рекомендуем -

10) Не забывайте регулярно сохранять

Если вы подталкиваете SEO Spider к пределам памяти, мы рекомендуем сохранение проектов сканирования регулярно. Если есть проблема, это означает, что вы не потеряете все сканирование.

Вы можете сохранить сканирование, нажав «Стоп», затем «Файл> Сохранить». Как только сканирование завершит сохранение, просто нажмите «возобновить», чтобы потом продолжить сканирование снова!

Счастливого Ползания!

Веб-сайты действительно уникальны, но основные принципы, изложенные выше, должны позволить вам более эффективно сканировать большие веб-сайты.

Если у вас есть какие-либо вопросы относительно нашего руководства по сканированию больших веб-сайтов, просто свяжитесь с нашими служба поддержки команда.

Каковы различия между памятью и базой данных?
Каковы различия между памятью и базой данных?
Вам действительно нужно сканировать весь сайт?
Вам нужно сканировать каждый URL, чтобы получить данные, которые вам нужны?
Итак, зачем сканировать 5 миллионов URL, когда достаточно 50 тысяч?
Например,?

ТРАНСПОРТ ДНЕПРОПЕТРОВСКА - Информационный портал