Перейти к содержанию
  • Регистрация

Стол заказов

  • 16 890
  • 1
Проверить

Кошелёк в Telegram | Wallet

  • 5 075
  • 1
Проверить

Огромное количество запросов от facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php) и других ботов (DataForSeoBot, Bytespider) [ Обсуждение ]


Рекомендуемые сообщения

  • Aprel Team

Хочу поднять тему юзер агентов и нагрузок на небольшом примере.

Возможно у вас точно так же как и у меня пошёл сумасшедший трафик по всем темам с useragent: 

facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)

Для начала разберёмся что это за хуйня такая. 

Суть такая - сканированием занимается Facebook, Instagram (в РФ эта залупа запрещена). Он полностью сканирует сайты для получения бизнес информации и аналитики, а так же полностью сливает сайт для своего ИИ, то есть для GPT ботов, чатов. Именно в этом 2024 году нагрузка на сайте многократно выросла из-за подобных ботов.

Они полностью игнорируют файл robots.txt, более того, невозможно настроить частоту сканирования, практически ежеминутно сливают всю информацию с сайтов себе (запросов может быть от сотни тысяч до несколько сотен миллионов, в зависимости от сайтов).

Указано что сканер Facebook должен уважать robots.txt и не должен сканировать страницы, запрещённые robots.txt, но меня он мягко говоря шлёт нахуй. Пример кода, вросто добавить в robots.txt (вдруг у вас заработает):
 

User-agent: *
User-agent: facebookexternalhit/1.1
Disallow: /
SITEMAP: https://website.com/sitemap.xml


Как заблокировать facebookexternalhit/1.1 Crawler?

Можно использовать различные методы, в том числе:
. .htaccess:
Вы можете добавить следующий фрагмент кода в конец вашего веб-сервера Apache в .htaccess. Это будет блокировать все запросы из Facebookexternalhit/1.1:

# BLOCK Facebook Crawler
# https://endurtech.com/block-facebook-crawler-facebookexternalhit/
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^facebookexternalhit/1\.1 [NC]
RewriteRule ^ - [F,L]
# BLOCK Facebook Crawler END

Блокировка IP:
Вы можете заблокировать IP-адреса Facebook с помощью брандмауэра вашего сервера или программного обеспечения для блокировки IP. Однако этот метод не рекомендуется, так как IP-адреса Facebook постоянно меняются.

Блокировка агента пользователя (User Agent):
Вы можете заблокировать использованием плагинов для блокировки пользовательских агентов или другим программным обеспечением, например Apache SetEnvIf.

Cloudflare:
Если вы используете Cloudflare, вы можете заблокировать использованием правил брандмауэра Cloudflare. Данный способ разберу ниже.

Нужно создать пользовательское правило WAF, чтобы заблокировать отмеченные пользовательские агенты ключевыми словами "facebookexternalhit", “Bytedance”, “Bytespider” и так далее.

image.thumb.png.2fa6757ab2f853ac797e793918049cc7.png

image.thumb.png.1f327b16c8ff74bb2434de95e83bbead.png

На скриншоте так же есть вкладка Tools, туда можно записать блокировку конкретного агента.

Ниже приведу список уёбищных ботов. Рекомендую их блокировать.

Плохие боты и краулеры

В этой части будут рассмотрены плохие боты, которые следует заблокировать, чтобы снизить нагрузку на сервер сайта.

DotBot
Бот компании Moz, собирает статистику о сайтах для коммерческой продажи для клиентов сервиса Moz, данный бот может быть полезен только для тех сайтов, которые работают с Moz по API, в противном случае это лишняя нагрузка на сайты.
Идентифицирует себя так: (compatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; [email protected]).

BLEXBot
Собирает SEO-данные о сайте для коммерческой продажи клиентам. Создаёт лишнюю нагрузку, а также делает данные о сайте прозрачными для конкурентов. Рекомендуется блокировать.
Идентифицирует себя так: (compatible; BLEXBot/1.0;).

AhrefsBot
Бот компании Ahfers, занимающейся SEO-аналитикой, собирает данные о вашем сайте (SEO, линкбилдинг, трафик), а потом продаёт её клиентам. Лучше блокировать, так как эти данные могут быть полезными для ваших конкурентов.
Идентифицирует себя так: (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/).

MBCrawler
MBCrawler/1.0 разработан MonitorBacklinks, занимается анализом обратных ссылок и создаёт серьёзную нагрузку на сайты. Очень активен, рекомендуется блокировать, так как может получить много информации об обратных ссылках с вашего сайта. Идентифицирует себя так: (MBCrawler/1.0 (https://monitorbacklinks.com/robot). Лучше блокировать.

YaK/1.0
Это бот компании LinkFluence. Собирает данные о сайтах для дальнейшего коммерческого использования. Соответственно, может быть использован конкурентами против вас. Рекомендуется блокировать.
Идентифицирует себя так: (compatible; YaK/1.0; http://linkfluence.com/; [email protected]).

niraiya.com/2.0 (Stolen Passwords Checker Bot)
Бот для проверки украденных паролей от компании Nirariya, компания занимается продажей менеджера паролей. Скорее всего, проверяю сайт на утечки паролей, но бот создаёт лишнюю нагрузку. Лучше блокировать.
Идентифицирует себя так: (compatible; niraiya.com/2.0;)

MegaIndex.ru/2.0
Бот Megaindex.ru, собирает данные о вашем сайте, SEO, обратных ссылках, потом предоставляет эту информацию на коммерческой основе. Бот можно расценить как вредоносный, если не используете его для аналитики собственного сайта. Также делает прозрачным данные о вашем сайте для конкурентов.
Идентифицирует себя так: (compatible; MegaIndex.ru/2.0; +http://megaindex.com/crawler).

MJ12bot
Очередной бот SEO-аналитики, если начал появляться на сайте, то будет его серьёзно грузить. Блокировать MJ12bot следует обязательно. Это бот компании Majestic, впрочем, если работаете на сервисах, связанных с Majestic, то не стоит его блокировать, например, если работаете на биржах ссылок вроде Majestic или Miralinks, то там очень важны показатели Majestic.

SemrushBot
SemrushBot от SEO-сервиса Semrush, периодически создаёт серьёзную нагрузку на сайт, обходя его снова и снова. Данные, которые собирает данный бот, нужны для того, чтобы продавать их на коммерческой основе.
Соответственно, информация, собранная данным ботом, будет доступна конкурентам, что может не пойти вам на пользу.

Cloudfind
Бот от одноимённой компании, ищет парнёров для аффилирования для партнёрского маркетинга. Чаще гуляет по зарубежным площадкам, но периодически появляется и в ру-сегменте.

GetIntent Crawler
Краулер от компании GetIntent. Собирает данные о сайтах для маркетинговых целей, например, для анализа перспектив размещения контекстной рекламы. С какими рекламными платформами сотрудничает, неизвестно, информации о том, работает данный краулер с AdSense или РСЯ найти не удалось, так что решил его заблокировать.

SafeDNSBot
Бот от компании SafeDNS, компания позиционирует себя как средство защиты от вредоносных сайтов и периодически проверяет сайты на безопасность. Нагрузку на сайт создаёт небольшую, так что можно и не блокировать.

SeopultContentAnalyzer/1.0
Бот компании PromoPult (бывш. SeoPult), собирает SEO-данные сайта вроде обратных ссылок, ключевых слов сайта и т. п. Соответственно, собранные данные будут анализировать и предоставляться вашим конкурентам на коммерческой основе. Бота SeopultContentAnalyzer/1.0 рекомендуется блокировать.

serpstatbot/2.0
Бот от известной платформы Serpstat. Постоянно анализирует сайты на наличие обратных ссылок. Полученную информацию использует в коммерческих целях, предоставляя её в рамках своего сервиса. Соответственно, помимо дополнительной нагрузки на сервер, предоставляет больше информации о вашем сайте конкурентам. Рекомендуется блокировать.

LinkpadBot
Бот сервиса LinkPad. LinkpadBot собирает информацию о ссылочном профиле вашего сайта для коммерческого использования, соответственно, ваши конкуренты могут получить данные о ссылках, которые вы размещаете на сайте, а также будут дискредитированы сетки сайтов-сателлитов. Лучше данного бота блокировать.

Slurp
Поисковой краулер Yahoo! За особым беспределом не замечен, но в СНГ с него трафика практически нет, соответственно, особой пользы от Slurp Bot не будет. Лучше заблокировать, ибо иногда начинает активно обходить сайты.
Если сайт ориентирован на зарубежную аудиторию, лучше оставить.

DataForSeoBot/1.0
Бот сервиса DataForSeo, занимается проверкой обратных ссылок и анализом сайта для дальнейшего использования в коммерческих целях, например, для предоставления SEO-данных вашего сайта конкурентам.
Пользы от DataForSeoBot/1.0 нет, лучше блокировать.

Rome Client (http://tinyurl.com/64t5n)
Неизвестно, что за краулер этот Rome Client, толком и не нашёл о нём информации. Судя по IP, запросы идут с сервиса Amazon AWS. Ориентируется именно на Feed сайта, вполне возможно, что выгружает его для своих целей. Так как неизвестно, что это за бот и какие цели преследует, лучше его блокировать.

Scrapy
Бот Scrapy разработан для того, чтобы обходить сайты с открытым исходным кодом и вытаскивать с них данные. Зачем? Цели могут быть разные, как хорошие, так и плохие. В общем, данного бота лучше блокировать.

FlipboardRSS
Бот платформы Flipboard, берёт вашу RSS-ленту для публикации. В целом не вредоносный, даже необходимый, если вы публикуете свои материалы на Flipboard, проблем в том, что вашу RSS-ленту на данном сервисе может опубликовать кто угодно. Вы не получите оттуда трафика, зато получите периодический обход ботом.

FlipboardProxy
Тоже от FlipBoard, фактически проверяет ваш сайт, а также анализирует, как он выглядит. Нужен для отображения материалов на Flipboard. Если трафика с этого сервиса нет, можно бота блокировать.

Proximic Bot
Иногда в логе можно видеть этого бота, идентифицирует себя так: (compatible; proximic; +https://www.comscore.com/Web-Crawler).
Занимается сопоставлением соответствия контента и контекстной рекламы. Работает ли с AdSense или РСЯ неизвестно, соответственно, не могу отнести его к полезным, вполне возможно, что этот бот просто собирает информацию для проектов и «тренируется» на сторонних сайтах, чтобы точнее определять тематику данных на разных языках.

ZoominfoBot
Единственные данные в строке идентификации: (zoominfobot at zoominfo dot com). Собирает только деловую информацию с сайта, как правило, вытягивает весь фид сайта. Для русскоязычной аудитории практически бесполезен.
Информацию собирает в коммерческих целях, для агрегации и предоставления своим пользователям на коммерческой основе. Лучше блокировать.

SeznamBot/3.2
Краулер чешской поисковой системы Seznam. Если у вас сайт не на чешском языке, толку, скорее всего, от него никакого. Да и посетителей на этом «поисковике» нет. В общем, за всю жизнь моего сайта не видел оттуда ни одного посетителя, соответственно, считаю этот бот вредным и рекомендую его блокировать.

Seekport Crawler
Краулер очередного «недопоиска». Трафика с него не видно, перспектив у данной поисковой системы тоже нет, информации о ней практически никакой.
Идентифицирует себя так: (compatible; Seekport Crawler; http://seekport.com/).

Думаю, мало смысла пускать их краулер к себе на сайт, перспектив мало, особенно для СНГ.

 

Ссылка на комментарий

Присоединяйтесь к обсуждению

Вы можете написать сейчас и зарегистрироваться позже. Если у вас есть аккаунт, авторизуйтесь, чтобы опубликовать от имени своего аккаунта.

Гость
Ответить в этой теме...

×   Вставлено с форматированием.   Восстановить форматирование

  Разрешено использовать не более 75 эмодзи.

×   Ваша ссылка была автоматически встроена.   Отображать как обычную ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставлять изображения напрямую. Загружайте или вставляйте изображения по ссылке.

  • Последние посетители   0 пользователей на связи

    • Ни одного зарегистрированного пользователя не просматривает данную страницу
  • Кто на связи   0 пользователей, 0 анонимных, 29 гостей (Посмотреть всех)

    • Зарегистрированных пользователей на связи нет
×
×
  • Создать...