雅虎挑战Google PR

Google PR是现在搜索引擎技术的基石之一,其他搜索引擎不一定叫PR,但肯定也在使用相同的技术。PR值在搜索引擎排名的各个阶段都可能用到,比如计算最后的相关度,决定抓取周期,抓取深度,以及是放在主数据库还是补充材料数据库

PR值的计算是假设网页上的链接有相同的权重。据SEO by the SEA报道,雅虎今年1月10号刚刚被批准的一份名为用户敏感PageRank的专利对PR值的这一假设做出了挑战。

申请这一专利的人对PR有非常深入的了解,挑战的PR计算基本假设包括:

不是所有链接都是相同的

用户并不是随机的点击网页上的链接,有些链接天生就比其他链接更重要。比如说网页上的隐私权政策链接,很少有人点击。

用户并不随机访问网页

PR计算的一个假设是当用户烦了的时候,并不点击网页上的链接,而是随机的转到网上的另外一个网页。这种假设并不现实。因为一般人离开原来网页去其他网站时,并不真正随机。重要门户和个人网站被随机访问的机会相差甚远。

无聊的用户并不只是去被信任的网页

像上面说的,无聊的用户不再点击链接时,下一个访问目标既不完全随机,也不一定就会去被信任的网站。

网页随时间以不同速率改变

PR值的计算忽略了有时网页会被买卖或起其他变化,有的时候会过时,这些变化的速率对不同网站也是不同的。

用户行为数据

雅虎的这份专利引入用户行为数据来修正PR值计算中不现实的假设。考虑的用户行为方式包括:

链接权重

链接权重受用户实际上点击的比例影响。点击多的链接权重比较大。

随机到达新网页的可能性

用户不是点击链接,而是随机来到新网页的可能性也被用户数据所修正。

对网页的满意度

用户停在网页上,并不再继续访问新网页的可能性,也通过用户数据有反应。用户停在某个网页上,意味着对这个网页满意度更高。

这三个部分组合起来,将产生一个网页文件的权重值。

一直以来,雅虎在引入用户行为模式方面走的就比较远,所拥有的社会化网络也比较多。这份专利申请体现了雅虎在用户数据上的专注。

------首次发布日期: 2008年01月21日

作者: Zac
版权属于: SEO每天一贴
版权所有。转载时必须以链接形式注明作者和原始出处及本声明。



28 条评论 “雅虎挑战Google PR

  1. 点击多的链接权重比较大。
    这话严重同意,我的原来有PR3的几个内页,不重要,连我自己都很少点击;
    此次PR更新后,变成了1或直接变没了。

  2. 我一点都不把yahoo看到眼里,而且中文来讲,从yahoo来的流量有10%就很不错了,也不知道他怎么排名的,我的一个小站21天关键词竟然跑到雅虎前10,所以可以鉴定 雅虎算法是白痴。。。还挑战google

    是Gfans的顶我下!

  3. yahoo在中国表现不佳,并不代表其实力;
    而且它所提及的这些确实是非常有道理的,至于有没有超过google这个难说;

    值得感兴趣的是,它的这些用户行为数据的采集方式是什么?

  4. 弱弱的说一句
    互联网上第一个搜索引挚好像是YAHOO吧
    上学的时候书上好像有提出,当然不是中文YAHOO,而是全球YAHOO
    GG刚开始也引用YAHOO的技术
    是我记错了,还是怎么了
    知道的说一下,给个准确点的见解,谢.
    个人感觉整个YAHOO的技术不比GG的逊色,相反
    个人认为YAHOO技术比GG要先进的多,只是核心部分不一样
    YAHOO全球也注在搜索上

    注:之上所说均为个人瞎说,请谅解.YAHOO也指的是全球YAHOO,而不是被收购后改变的中文YAHOO

  5. 我有2个问题:

    1)搜索引擎自己如何判断A网站的abc页面点击量多大呢,要是定量计算的话,估计计算量巨大的很
    2)用户的行为模式和网站的预期用户群的预期行为有关系,或许在SEO上也就是要定向投放广告和选择有明确目标的关键词,在搜索引擎自己如何评价一个网站的总体印象呢,通俗点说,搜索引擎不仅抓取了网站的页面,存储了数据,但是在搜索眼里这是一个怎样的网站呢?可能又和域名的权重评价扯上关系了。

    另 印象中早期的雅虎就没有爬虫抓取-索引式搜索引擎,早期的yahoo目录我经常用,即使是英文的,因为那时候中文的内容相对贫乏的多。
    撇开yahoo的技术和gg的技术高低,从搜索体验来说我更喜欢google的效果,而且我发现同样差不多聪明的人在不同的公司能发挥的业绩差别很大的,宏观的看就是不同公司的类似产品的竞争。

  6. 另前两天下载了一本免费的 搜索引擎优化 魔法书,提到zac的贡献,总体感觉这本书对我很有价值,虽然不少概念理解了,但是实践环节还很欠缺。

  7. google已经可以判断是不是原创了,我写的小说《我们是站长》google搜索一下我就是第一个,百度搜索一下全是转载的。Yahoo搜索一下 全是转载的。
    我是撇开我是google fans说的 谢谢

  8. 估计能引出原创系数一说,哈哈,我也是原创居多,半年左右pr增加到4虽然不匝地,我感觉算是一个欣慰。

  9. 用户体验、页面满意度……仿佛都懂,但是做起来就是懵懵懂懂.
    特别是搜索引擎抓取的深度和频率,好像Baidu,Google两个大爷好久没来关照我了.哎….

留个言呗:

您的邮箱不会被显示在页面上。标有*的是必填项。