• 首页
  • 应用商店
  • 云盟
  • 犀牛学院
  • 牛魔王
  • 资讯中心
  • 深圳VIP热线
    0755-2801 8888
  • 销售热线
    400-071 8888
  • 客服热线
    400-0000 366
  • 最热文章
  • 最新文章
  • 好文推荐
相关文章

SEO公司:抓取频次过高导致索引量下降的问题(案例分析)

日期: 2016-11-21
浏览次数: 146

什么是网站抓取频次

抓取频次是搜索引擎在工作单位时间内(天级)对网站服务器数据抓取的总次数,如果spider对站点服务器抓取频次过高的话,会造成服务器不稳定,连接超时等情况。Baiduspider会根据网站内容更新频率和服务器压力等因素自动调整抓取频次。

之前有个朋友的网站索引量一直在平衡下降,原因开始时一直找不到,后来经过分析是抓取频次过高而导致索引量下降的,如下图,日期刚好对上一致!

SEO公司:抓取频次过高导致索引量下降的问题(案例分析)

 

SEO公司:抓取频次过高导致索引量下降的问题(案例分析)

 

SEO公司:抓取频次过高导致索引量下降的问题(案例分析)

 

 

   在对应相同的日期,索引量有明显的下降,如下图:

SEO公司:抓取频次过高导致索引量下降的问题(案例分析)

 

 

SEO公司:抓取频次过高导致索引量下降的问题(案例分析)

 

SEO公司:抓取频次过高导致索引量下降的问题(案例分析)

 

经上列的分析,Baiduspider 抓取频次过高也会影响索引量的。

 

一、造成baiduspider抓取频次暴增的原因:

1、baiduspider抓取站内时JS代码较多,需调用大量资源针对网站JS代码进行解析抓取;目前baiduspider是可以抓取js代码的,但不能识别。

2、存在其他的spider在抓取网站数据,如:百度部门里,商业、图片等,但没有控制好流量导致抓取频次过大;

3、已抓取的文章链接,文章质量度过低,抄袭内容过多,导致spider重新抓取页面;

4、网站被恶意攻击,有李鬼仿冒百度爬虫。怎么解决此问题?如何识别Baiduspider?

可以通过DNS反查方式来解决这个问题。根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:

、在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

SEO公司:抓取频次过高导致索引量下降的问题(案例分析)

 

、在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

③、mac os平台下,您可以使用dig 命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

如果以上情况都不是造成站点频次过高的真正原因,那么,

①、可以到抓取频次上限调整页面进行抓取频次上限下调。

注意:要根据站点往期均抓取频次,以正常的抓取频次最大值为合适,抓取频次过小会直接影响到spider对网站的收录

②、如果还是不能够解决此问题,可以到百度站长平台反馈中心进行反馈。

注意:反馈时要将问题情况清楚得描述出来,在提供相关证明截图!