前两天人们注意到Google Adsense蜘蛛所抓取的网页会出现在搜索结果中。Matt Cutts在他的博客里迅速的做出了回应,对这种现象做了进一步解释。
简单来说,Google在完成大爸爸数据中心升级后,各种蜘蛛抓取网页的机制产生了变化。不是各个蜘蛛直接抓取网页,而是由一个爬行缓存代理crawl caching proxy抓取网页,然后不同的蜘蛛从这个缓存中获取内容,从而节省了带宽。
Matt Cutts的帖子比较完整的翻译可以在幻灭和小添的博客里看到。
我要补充的是:第一:Matt Cutts特意指出,这个新的抓取机制不会让你的网页被抓取的更快,也不会对排名有任何影响。这个爬行缓存代理也不影响各个蜘蛛本来应该爬行的频率和时间表。只不过各个蜘蛛不直接爬行网页,而是从缓存中获取。
第二:更引起我注意的是,Matt Cutts说这个爬行缓存代理是大爸爸更新之后才有的。因为运行的很顺利,在其他人发现这种现象之前,Matt Cutts自己没意识到这种新的机制已经运行了。这说明Matt Cutts并不能掌握所有各个部门的最新情况,那么还有什么是Matt Cutts也还不知道的呢?
第三:Matt Cutts讲这个机制的目标是节省带宽,而不是隐藏页面(cloaked page)检测。我觉得弦外之音是,利用同样的技术,Google完全可以用其他的蜘蛛来检测隐藏页面。当然也可能是我过度敏感了。
另外,最近很多网站出现被收录的页面数目急剧下降的现象,我怀疑和这个新的页面抓取方法造成的混乱有关。很显然不是排名算法改变导致收录的网页数目下降,而是蜘蛛爬行的问题。
对,这文章确实说到点子上了,上面的情况我可以作实,我seo我的个人网站时候就遇到这情况,所以不要心急
这个东西确实是很奇怪。也很深奥
原来GOOGLE比百度更新快 现在比百度慢了 查询收录数目也是变化无常 百度就相对稳定 还是水土不符的感觉
能说下你的加入到百度搜藏是怎么弄的吗?谢谢
Google爬行缓存代理(crawl caching proxy)是什么呢?
这个东西确实是很奇怪。也很深奥
技术在进步呀。呵呵
技术在进步呀。呵呵
慢慢学习吧 我很有耐心滴 …
看zac的博客学知识,有时候也very锻炼心智。看看时间吧–06年,再看看内容 “Matt Cutts讲这个机制的目标是节省带宽,而不是隐藏页面检测。我觉得弦外之音是,利用同样的技术,Google完全可以用其他的蜘蛛来检测隐藏页面。”、 “最近很多网站出现被收录的页面数目急剧下降的现象,我怀疑和这个新的页面抓取方法造成的混乱有关。很显然不是排名算法改变导致收录的网页数目下降,而是蜘蛛爬行的问题”
好深的一道沟,排名算法相关的都还差着呢,蜘蛛爬行相关的也半吊子,日夜狂追的居然是06年的!这样一个境界加这么长时间都不怎么出手了。。。。
另外还不知道我这样读到了多少。。。。
第三点的分析,很有道理。