什么是网站抓取频次?
抓取频次是搜索引擎在工作单位时间内(天级)对网站服务器数据抓取的总次数,如果spider对站点服务器抓取频次过高的话,会造成服务器不稳定,连接超时等情况。Baiduspider会根据网站内容更新频率和服务器压力等因素自动调整抓取频次。
之前有个朋友的网站索引量一直在平衡下降,原因开始时一直找不到,后来经过分析是抓取频次过高而导致索引量下降的,如下图,日期刚好对上一致!
![SEO公司:抓取频次过高导致索引量下降的问题(案例分析) SEO公司:抓取频次过高导致索引量下降的问题(案例分析)]()
![SEO公司:抓取频次过高导致索引量下降的问题(案例分析) SEO公司:抓取频次过高导致索引量下降的问题(案例分析)]()
![SEO公司:抓取频次过高导致索引量下降的问题(案例分析) SEO公司:抓取频次过高导致索引量下降的问题(案例分析)]()
在对应相同的日期,索引量有明显的下降,如下图:
![SEO公司:抓取频次过高导致索引量下降的问题(案例分析) SEO公司:抓取频次过高导致索引量下降的问题(案例分析)]()
![SEO公司:抓取频次过高导致索引量下降的问题(案例分析) SEO公司:抓取频次过高导致索引量下降的问题(案例分析)]()
![SEO公司:抓取频次过高导致索引量下降的问题(案例分析) SEO公司:抓取频次过高导致索引量下降的问题(案例分析)]()
经上列的分析,Baiduspider 抓取频次过高也会影响索引量的。
一、造成baiduspider抓取频次暴增的原因:
1、baiduspider抓取站内时JS代码较多,需调用大量资源针对网站JS代码进行解析抓取;目前baiduspider是可以抓取js代码的,但不能识别。
2、存在其他的spider在抓取网站数据,如:百度部门里,商业、图片等,但没有控制好流量导致抓取频次过大;
3、已抓取的文章链接,文章质量度过低,抄袭内容过多,导致spider重新抓取页面;
4、网站被恶意攻击,有李鬼仿冒百度爬虫。怎么解决此问题?如何识别Baiduspider?
可以通过DNS反查方式来解决这个问题。根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:
①、在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。
![SEO公司:抓取频次过高导致索引量下降的问题(案例分析) SEO公司:抓取频次过高导致索引量下降的问题(案例分析)]()
②、在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。
③、在mac os平台下,您可以使用dig 命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。
如果以上情况都不是造成站点频次过高的真正原因,那么,
①、可以到抓取频次上限调整页面进行抓取频次上限下调。
注意:要根据站点往期均抓取频次,以正常的抓取频次最大值为合适,抓取频次过小会直接影响到spider对网站的收录
②、如果还是不能够解决此问题,可以到百度站长平台反馈中心进行反馈。
注意:反馈时要将问题情况清楚得描述出来,在提供相关证明截图!