笔者近日刚刚上线一个新站,于是开始关注一些有关SEO的信息,偶然间搜索到一篇文章,题为:“百度蜘蛛IP段详解”,内容为介绍通过分析网站日志中百度蜘蛛爬行的IP段来了解网站首页或内页的收录放出情况。看后,笔者便亲自试验了一下,发现可能并不可信。
文中曾提到:“220.181.108.95这个是百度抓取首页的专用IP,如是220.181.108段的话,基本来说你的网站会天天隔夜快照,绝对错不了的,我保证。”
那么笔者查询了下日志中,IP为220.181.108.95的蜘蛛爬行日志:“220.181.108.95 - - [31/Dec/2013:12:04:42 +0800] "GET / HTTP/1.1" 400 39 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +)" "-"”,笔者的站地址为:一问网日志爬行时间为2013年12月31日中午12点,截止投稿前,首页快照还停留在几个月以前,并未如文章中所说隔夜快照。
此时笔者便有了疑问,于是又找了一个文中作者曾经保证过的另外一个IP,文中原文为:“220.181.108.*段IP主要是抓取首页占80%,内页占30%,这此爬过的文章或首页,绝对24小时内放出来和隔夜快照的,这点我可以保证!”
而笔者又查询了下日志中是否存在此IP,发现确实存在,而且还不少:
220.181.108.116 - - [31/Dec/2013:03:17:17 +0800] "GET / HTTP/1.1" 200 3652 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +)" "-"
220.181.108.112 - - [31/Dec/2013:07:56:58 +0800] "GET / HTTP/1.1" 200 3652 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +)" "-"
220.181.108.108 - - [31/Dec/2013:08:55:43 +0800] "GET / HTTP/1.1" 200 3652 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +)" "-"
220.181.108.80 - - [31/Dec/2013:09:57:11 +0800] "GET / HTTP/1.1" 400 39 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +)" "-"
由于内容过多,便不过多列举,像文中作者所保证的("220.181.108.*段IP主要是抓取首页占80%,内页占30%,这此爬过的文章或首页,绝对24小时内放出来和隔夜快照的"。)结果并未出现,一问网www.yiwen.cn,至今距离百度蜘蛛爬过已经过48小时,并未放出。
由此可见,网上所流传的百度蜘蛛IP段详解可能并不可信。以上是笔者的一人之见,请大家多多批评指教,欢迎大家找我讨论,邮箱:z#yiwen.cn(请把#换成@)。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!