Защитите свои объекты - блокируя нежелательных ботов - Ahrefs, MajesticSEO и другие

  1. Прежде всего: масло robots.txt
  2. Блокируйте с умом - дайте доступ только избранным ботам
  3. Блокировка ботов на серверах nginx

В сети вы можете найти примеры очень длинных записей htaccess, которые содержат самые популярные сканеры и другие. Лично я считаю, что создавать такие записи бессмысленно, поскольку файл htaccess становится менее читаемым. И в таком файле можно найти другие, более длинные записи, например, ускорение страницы ,

Прежде всего: масло robots.txt

В файлах robots.txt он никогда не блокирует ботов. Причина проста. Его не всегда уважают. Вот почему я не трачу свое время на игры в кошки-мышки.

Поэтому лучший способ, потому что блокировка с сервера - это файл htaccess.

Блокируйте с умом - дайте доступ только избранным ботам

Как я писал ранее, нет смысла создавать длинный список, потому что этого достаточно, чтобы представить бота иначе (например, другого агента пользователя), и нам нужно изменить файл - добавив или отредактировав соответствующую строку. Я уже не говорю о поиске правильных имен.

Дома на блоге, как и на других сайтах, я разрешаю только три бота: Google, Yahoo, Bing. Остальные не могут получить доступ к сайту.

Вот как это выглядит в файле htaccess:

SetEnvIfNoCase User-Agent. * Google. * Search_robot SetEnvIfNoCase User-Agent. * Yahoo. * Search_robot SetEnvIfNoCase User-Agent. * BingBot. * Search_robot SetEnvIfNoCase User-Agent. * Mozilla. Отказаться от разрешения запретить все в браузере из env = search_robot

Вдруг несколько строк :). Лично я считаю, что это очень аккуратное решение.

Обновление: благодаря Дамиану, вам нужно добавить одно правило, чтобы разрешить браузеры. На моем сервере он работает правильно, но на других он выдаст ошибку 403.

Конечно, мы можем проверить, все ли работает правильно. Это можно сделать с помощью локона. Ниже приведен код, чтобы проверить, будет ли бот Ahrefs иметь доступ к нашему сайту.

curl -A "AhrefsBot" http://seoninja.pl

Тогда в ответ мы получим информацию об отсутствии доступа к странице - значит ошибка 403.

Если кто-то смотрел, то боты Ahrefs и MajesticSEO выглядят следующим образом:

Ahrefs: (совместимо; AhrefsBot / 2.0; + http: //ahrefs.com/robot/) MajesticSEO: (совместимо; MJ12bot / v1.4.0; http://www.majestic12.co.uk/bot.php?+)

Блокировка ботов на серверах nginx

Обновление: W комментарии версия для nginx появилась. Я не проверял это. Ниже приведен красиво отформатированный код.

http {map $ http_user_agent $ bad_bot {default 1; ~ * ^ google 0; ~ * ^ Yahoo 0; ~ * ^ BingBot 0; ~ * ^ Mozilla 0; ~ * ^ Googlebot 0; }}

Затем добавьте блок сервера - для определенных страниц:

сервер {if ($ bad_bot) {return 444; }}

Спасибо Петру за версию для nginx.

Читайте так же:

  • Лимо-такси (LIMO-TAXI)
  • По Днепру была запущена «речная маршрутка»
  • Эконом такси Чайка
  • Трамвайные линии Екатеринослава 1897-1906 гг.
  • Каприз такси

Комментарии запрещены.

Новости