robots.txt
- Место строительства и хранения
- Синтаксис и примеры
- Подстановочные знаки работают в robots.txt
- Примеры использования подстановочных знаков
- Список важных поисковых ботов / агентов:
- Важность robots.txt для поисковой оптимизации (SEO)
Robots.txt - это текстовый файл, инструкция к которому робот / гусеничный поисковая система, как Google или Bing включает в себя. Основная цель robots.txt - сообщить поисковой системе, какие части веб-страницы не следует сканировать. Это соответственно вид черный список или контрольный файл, который не следует рассматривать как обязательный. URL, которого нет в индексе, не существует в Интернете с точки зрения поисковой системы. Не каждый сканер придерживается инструкций, перечисленных в robots.txt. Однако известные поисковые системы следуют инструкциям. В отличие от исключения с помощью Мета-тег который исключает индивидуальный дно n, операторы в текстовом файле в основном основаны на исключении целых областей файла домен , Тем не менее, отдельные файлы или URL-адреса также возможны. Это включает в себя каталоги, а также URL-адреса, содержащие конкретные строки.
Кроме того, ссылка на существующий XML Карта сайта который предоставляет поисковой системе структурированный список всех URL-адресов домена.
Место строительства и хранения
Протокол, лежащий в основе robots.txt, является стандартом де-факто . Это означает, что «Стандартный протокол исключения роботов» (REP) от 1994 года не является стандартом RFC, но применяется на практике, и операторы веб-сайта могут быть уверены, что правильно сконструированные файлы обрабатываются поисковыми системами правильно. Хотя, как упоминалось выше, нет никакой гарантии, что все роботы будут следовать инструкциям, в большинстве случаев функция гарантирована.
REP заявляет, что поисковые системы сначала ищут файл robots.txt в главном каталоге домена, а затем начинают фактическую индексацию сайта и оценивают содержащиеся в нем утверждения. Эти спецификации также определяют место хранения одновременно. Файл robots.txt должен храниться в корневом каталоге веб-сервера и должен быть написан полностью строчными буквами. Если файл называется Robots.txt, содержимое игнорируется.
Однако следует отметить, что блокировка роботов не обеспечивает защиту доступа. Сеть браузер игнорирует файл, и каждый пользователь может получить доступ к содержимому. Таким образом, если контент должен быть защищен, например, один или несколько каталогов могут использоваться , .htaccess или другие средства. Robots.txt не заменяет защиту паролем.
Структура файла (почти) всегда состоит из двух блоков или строк. Первая строка дает веб-мастер для какого пользовательского агента заявление должно применяться (например, Googlebot ). Во второй строке указывается каталог или область, которую нужно исключить. Если область ниже исключенной плоскости должна быть доступна для робота, она должна быть указана явно. Исключением является, например, спецификация XML-карты сайта, которая указана в одной строке.
Пример структуры
# Комментарий (комментарий начинается с ромба) Пользовательский агент: * Disallow: / wp-admin / Разрешить: /wp-admin/admin-ajax.php Карта сайта: https://www.advidera.com/sitemap.xml
Перед загрузкой robots.txt обязательно проверьте файл на наличие ошибок. Любая синтаксическая или логическая ошибка может блокировать полную бесполезность функции и, в худшем случае, область поиска для поисковых систем, которая должна быть фактически включена в индекс. Один из способов просмотра - через Google Search Console. Под пунктом меню Crawling -> robots.txt tester можно проверить функцию файла. Там же можно протестировать живую версию.
Проверьте robots.txt в консоли поиска Google.
Синтаксис и примеры
Ниже приведен список команд, которые могут быть заданы REP в robots.txt.
Значение команды Пример # Комментарий # это robotx.txt для подстановочного знака advidera.com * (для фрагментов пользовательского агента и URL) Disallow: / *? $ Конец пути (например, для исключения файлов определенных типов) Disallow: /*.pdf$ User-agent: робот, для которого применяется инструкция User-agent: Googlebot Allow: Allow (значение по умолчанию) Allow: / Allowed-directory / Disallow: Forbid Запретить: / Запрещенный каталог / Карта сайта: Местоположение файлов Sitemap: Карта сайта: https://www.advidera.de/sitemap.xml
Блокировка всех поисковых систем полностью.
Пользователь-агент: * Disallow: /
Исключить только Googlebot.
Пользователь-агент: Googlebot Disallow: /
Разрешить только доступ Googlebot.
User-agent: Googlebot Разрешить: / User-agent: * (исключая все другие сканеры, кроме Googlebot) Disallow: /
Только Yahoo и Google позволяют.
User-agent: Googlebot User-agent: Slurp Allow: / User-agent: * (исключая все остальные сканеры) Disallow: /
Блокировка определенной директории для всех ботов.
Агент пользователя: * Disallow: / locked-directory /
Параметризованные URL-адреса индексирование допускается.
Агент пользователя: * Disallow: / *?
Исключить отдельные URL из индексации.
Агент пользователя: * Disallow: /directory/blocked-file.html
Подстановочные знаки работают в robots.txt
Подстановочные знаки являются своего рода регулярным выражением, которое можно использовать для поиска и фильтрации определенных шаблонов строк / текста в URL-адресах. Официально REP не поддерживает регулярные выражения, но основные поисковые системы поддерживают такие параметры, как * и $. Подстановочные знаки следует использовать только для исключения, так как сканеры обычно считывают «остаток» без каких-либо специальных инструкций.
Важно знать: не каждый робот поддерживает подстановочные знаки, поэтому не стоит полагаться на него на 100%.
Примеры использования подстановочных знаков
Заблокируйте все URL-адреса для ботов, которые содержат строку «запрещено».
Пользователь-агент: * Запретить: * запрещено
Заблокируйте все URL-адреса для ботов, которые заканчиваются строкой «запрещено».
Пользователь-агент: * Disallow: * .banned $
Аналогично, можно исключить URL-адреса, которые содержат определенные типы файлов. Таким образом, с помощью «Disallow: /*.xls$» все файлы Excel могут быть исключены. Также возможны PDF или другие типы файлов.
Список важных поисковых ботов / агентов:
Поискагента пользователя Google
Google Image Search
Google Adwords
Google Adsense
Yahoo
MSN / Bing
Teoma / Ask
Интернет архив
Exalead Googlebot
Googlebot-Image
Робот Adsbot-Google
Медиа-Google
чавкать
Msnbot / BingBot
Teoma
ia_archiver
Exabot
Чтобы адресовать более одного бота, у каждого робота должна быть своя строка в файле robots.txt. Список через запятую или аналогичный отключен не будет работать. Список (почти) всех известных агентов находится под http://www.user-agents.org/ найти. Однако есть и другие роботы, такие как Applebot, которых там нет.
Важность robots.txt для поисковой оптимизации (SEO)
Robots.txt очень важен для поисковой оптимизации. Это центральное средство управления поведением роботов. Утверждения в файле немедленно влияют на то, могут ли определенные страницы быть включены в индекс вообще. Однако без включения в индекс невозможно достичь ранжирования (за некоторыми исключениями, которые могут иметь место с сильно связанными URL-адресами). Поэтому файл следует проверять на наличие синтаксических и логических ошибок перед каждым обновлением, поскольку покрытие без конца покрытия может иметь фатальные последствия для бизнеса. В течение долгого времени не обнаруживается потеря не только возможного трафика, но и любая мера SEO. Влияние на фактическое ранжирование с помощью поисковой системы, однако, не существует. Факторы оптимизации страницы и оптимизации страницы ответственны за это.
выпуклость
Com * (для фрагментов пользовательского агента и URL) Disallow: / *?Агент пользователя: * Disallow: / *?