限制Bing搜索引擎抓取频率,降低服务器负载

技术文摘2年前 (2023)更新 8KMM
9.2K 0 0

看服务器日志, 发现Bing抓取的太疯狂, 每天来10W次+。  小水管服务器cpu直接爆, 影响到正常用户的使用体验了。

解决方法就是想办法限制bing蜘蛛来的次数和抓取频率。

两种解决方式:

第一种: 通过bing提供的web master tools工具设置。

注册好,认证完网站后, 可在左侧配置菜单中选择“爬网控件”进行配置。

直接入口: https://www.bing.com/webmasters/crawlcontrol?siteUrl=http://www.8kmm.com/

bing引擎管理入口

如下图所示:

限制Bing搜索引擎抓取频率,降低服务器负载
设置好时区, 然后拖动时间条进行管理。 非常方便。

考虑到8kmm.com白天用户多, 凌晨用户少,所以我这里设置的是一到大伙工作上班学习时你少来。 晚上凌晨才让你放马过来。

 

第二种,这种方式比较暴力, 直接控制robots.txt文件进行控制。 

可以在robots.txt里面增加crawl-delay 这个参数。

User-agent: bingbot
Crawl-delay: 1

上面的代码代表bingbot限制抓取频率为慢。

如果不设置Crawl-delay就代表由搜索引擎自己决定抓取频率。

这个值可以设置1、5、10,分别对应慢、非常慢、极慢。

如果是其他搜索引擎,例如Google、百度这些,都可以在对应的站长工具里面设置抓取频率,也可以通过robots.txt文件设置,相对来说,robots.txt生效时间会慢一点。 其实我也不推荐直接用robots设置

 

相关阅读:《设置Google爬虫抓取频率和屏蔽垃圾蜘蛛

 

© 版权声明

相关文章

文章目录

    暂无评论

    暂无评论...