屏蔽 MJ12bot 等恶意网页爬虫

过去几个月总是在过一段时间后收到服务器资源负载过高的警告,基本上每次上机检查日志都会发现某个网站被奇怪的恶意爬虫给完整检查了一遍。而且不知道为什么 MJ12bot 总是会检查一些无限重定向的链接,导致服务器资源被无意义地消耗。


几个资源消耗比较高的爬虫包括:

  • dotbot
  • SemrushBot
  • MJ12bot
    • 我特别建议屏蔽 MJ12bot,因为一些版权方会使用这家的爬虫来批量检查网站中是否包含侵犯版权的文件
  • SMTBot

对于这些爬虫建议直接在 robots.txt 中屏蔽掉它们,目前复查日志发现至少它们确实是遵守 robots.txt 规则的

User-agent: dotbot
Disallow: /

User-agent: SemrushBot
Disallow: /

User-agent: MJ12bot
Disallow: /

User-agent: SMTBot
Disallow: /

User-agent: PetalBot
Disallow: /

User-agent: AhrefsBot
Disallow: /

User-agent: CheckMarkNetwork
Disallow: /

User-agent: DigiCert DCV Bot
Disallow: /

912sy.com下载资源均来源于网络,仅供学习和参考使用,版权归原作者所有,勿作商业用途,请在下载后24小时之内自觉删除。
本站发布的内容若无意中侵犯到您的权益,请联系我们,本站将在一个工作日内删除。如遇到任何问题请联系客服QQ:2385367137
912sy » 屏蔽 MJ12bot 等恶意网页爬虫