Google技术副总裁谈Google排名算法

作者：Zac
更新日期： 2017年01月15日

今天是Google新闻发布日2006，大家可以看新闻发布会的实况，长达3个多小时。在发布会上Google总裁Eric Schmidt谈到Google的核心还是搜索，相关人员介绍了四个新产品，其中Google Trend对关键词研究很有用。

最感兴趣的是Google技术部门副总裁Alan Eustace谈Google排名的情况。所以我只跳到这个部分看了一下，大概半小时。下面拣记得的重点介绍给大家。

Alan首先谈到的是蜘蛛爬行，基本上就是跟踪所发现的链接。

速度非常重要。上一次Google在主页上发布的信息是，在数据库中有80亿网页。如果每秒爬行一个网页的话，这80亿的网页需要250多年才能爬行完。所以高速爬行网页非常重要。

爬行时的另外一个问题是，大概有50％的网页都是重复内容。所以Google所收录的80亿其实是已经丢掉了一半后的数字，真正爬行的有可能是200亿文件。

爬行时还有一个危险就是无限循环。比如说跟踪某个网页上日历的链接，可能在这个日历上总是有“下一个月”这个按钮，产生无限循环。因为网页程序可以无限制的生成下一个月的月历，Google蜘蛛就出不来了。

10％到20％的网站每个月都会更新内容，更新度也很重要。

然后是索引，索引就和一本书的索引差不多。比如说用户搜索heart attack（心脏病暴发），heart出现在文件5，9，25，attack出现在文件7，9，22，那么很明显第九个网页是符合条件的网页，这样搜索范围就已经限制在包含搜索词的网页内。

当然这个数量还是巨大的，再怎么从这里面挑出最好的结果呢？也就是进一步计算排名。

Google用两百多个信号来计算排名，这是新信息。

Alan提到了锚文字和PageRank。

举斯坦弗大学网页作为例子，很多其他网站会连向斯坦弗大学的网页，那么可以合理假定斯坦弗大学的网站权威性比较高，这也就是PR的意义。

然后是锚文字，也就是链接文字。比如在斯坦弗大学的网页上，一个以“Knight fellows”为链接文字的链接到其他网站，那么这个链接文字本身就在一定程度上说明了那个网页的主题，就算在那个网页上面Knight fellows这个词根本没有出现。

这个排名过程必须是自动的，不可能人工去调节这些排名。

Alan谈到大约20％到25％的搜索关键词都是独特的，也就是说以前从来没有别人所搜索过的。用户都非常有创意，会以各种各样形式组合的词来做搜索。

一个关键词搜索是由上千架机器所处理的。

Alan接着谈到垃圾技术，比如说在留言本里留下垃圾链接，这种技术对Google来说早就不起作用了。再比如有的作弊的人建立大量的网站，在这些网站之间互相链接，这对Google也不起作用。

他加了一句：对别的搜索引擎起不起作用，那就不知道了。

Google在做算法调整的时候，依据是多少人受益。比如说做某个调整，40％的人会觉得搜索质量提高，40％的人觉得没什么变化，20％的人觉得搜索质量降低，Google的决定就会是进行这个调整。

不可能在100％的搜索词下满足100％的人。

Alan还提到很多其他语言的搜索也非常困难，比如中文分词技术。

这段谈话倒没有很出人意料的地方，但Google负责技术的副总裁自己谈Google排名算法就已经很难得了。

等有时间再完整看一遍，看有什么新东西。

------首次发布日期： 2006年05月12日

15 条评论 “Google技术副总裁谈Google排名算法”

tan.shuai说道：

2006年05月12日 5:55 下午

Alan接着谈到垃圾技术，比如说在留言本里留下垃圾链接，这种技术对Google来说早就不起作用了。再比如有的作弊的人建立大量的网站，在这些网站之间互相链接，这对Google也不起作用。

留言板和网站间的互链真的不起作用吗？
好像不是吧……

回复
Zac说道：

2006年05月12日 6:33 下午

检测出所有留言板之类的垃圾链接当然不可能，能找出多一半就不错。

“网站间的互链”并不必然是作弊，但要是几百个网站链在一起，都没什么实质内容，域名所有人是同一个人，那就很可疑了。这样的网站太多了。

回复
tan.shuai说道：

2006年05月17日 6:06 下午

您知道googleBot爬行时留下的head信息吗？就是“user-agent: googleBot”之类。

我想做个试验，却不知道从哪能获得这些信息，只好来此请教。

回复
Zac说道：

2006年05月18日 1:52 上午

Google:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Yahoo:

Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)

Yahoo China:

Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)

MSN:

msnbot/1.0 (+http://search.msn.com/msnbot.htm)

Baidu:

Baiduspider+(+http://www.baidu.com/search/spider.htm)

希望有帮助。

回复
tan.shuai说道：

2006年05月18日 8:56 上午

十分感谢！

回复
Power说道：

2006年08月21日 4:02 下午

正好.到处找都没有找到,还是因为我自己找不到…反正最后自己写了php的代码..希望对大家有帮助

回复
Powerleveling说道：

2006年08月21日 4:05 下午

昏倒了…代码太长贴出来提示错误掉了404.
我简单贴一点吧.大概原理还是从头判断和蜘蛛的名称部分.

回复
Power leveling说道：

2006年08月21日 4:17 下午

我无语了…代码都贴不出来…我传到我自己的空间了.需要的同志自己看吧.
http://www.buy-gil.com/spider.txt
需要的话做一些修改,比如增加和删除一些判断.后缀改成php,调用这个文件就可以了.自动生成一个spider.txt

回复
sdf说道：

2007年01月13日 11:40 上午

非常感谢你，读你的文章使我获益很多，再次感谢! http://hi.baidu.com/weijingquanye

回复
山东seo说道：

2007年11月17日 4:49 下午

总是有不断的进步

回复
tomisong说道：

2008年02月21日 3:39 下午

您好新朋友，读你的文章很受益

回复
taoneiyi说道：

2009年06月9日 11:33 上午

再比如有的作弊的人建立大量的网站，在这些网站之间互相链接，这对Google也不起作用。
—————————–
我的几个网站照相有用，不过google的流量太小了，

回复
Tim说道：

2009年10月11日 1:47 下午

我拿笔按时间顺序记录下了影响gg的因素，或许有一天，我看完这些blog再把这些因素归纳起来，验证测试。

回复
wint说道：

2011年09月3日 11:50 上午

你好zac,你在2006年发布的文章中的大部分外链都不能够连接，这些死链接你不处理吗？还是说这些死链接对你来说没有影响，还是说这些外链死了，不会对你的网站有影响！

回复
1. Zac说道：
  
  2011年09月4日 2:45 下午
  
  不是没影响，也不是不想处理，是没时间处理，没时间把帖子过一遍，链接检查一遍。
  
  回复

SEO每天一贴

Google技术副总裁谈Google排名算法

相关帖子

15 条评论 “Google技术副总裁谈Google排名算法”

留个言呗：取消回复

相关帖子

15 条评论 “Google技术副总裁谈Google排名算法”

留个言呗： 取消回复

留个言呗：取消回复