Google的奇怪规则:URL不能以.0结尾

前两天SEOMoz发现和解决了一个很奇怪的Google收录问题。

SEOMoz有一个网页,是关于他们举办的Web 2.0大奖(Web 2.0 Awards)。URL是:

http://www.seomoz.org/web2.0

这个奖在网上还挺受欢迎,链接很多,URL是PR7。而且一直以来在Google搜索”Web 2.0 Award”时都排在第一位。

但前几天SEOMoz发现搜索Web 2.0 Award时,这个页面从Google消失了。排在最前面的是一个更深一层的页面。

SEOMoz也弄不清是这么回事。所以Rand联系了Google里面认识的人,Google的人建议最好把URL改成不以.0结尾。

注意看SEOMoz这个页面URL,后面没有跟着一个斜线/。在大部分情况下,URL结尾没有典型文件扩展名如.html,.php等时,URL会被当作目录,目录名后面没有斜线时,服务器会在后面自动加上一个斜线。比如SEO每天一贴,如果用户直接打开:

https://www.seozac.com/

或者有其他网页链接到上面这个URL,服务器都会自动做一个301转向到:

https://www.seozac.com/

由于某种原因,SEOMoz的这个URL并没有做301转向自动在目录后加上斜线,也就是说URL还是以.0结尾:

http://www.seomoz.org/web2.0

浏览器和蜘蛛就把这个URL当作了文件名,这个文件的扩展名(或者说文件类型)是.0。而.0文件Google拒绝收录,就像.exe文件一样。

SEOMoz做了很多调查,发现页面没被收录问题确实是因为这个以.0结尾的URL。在网上找不到以.0结尾的文件被收录在Google数据库中。像以下这些文件在Google都没收录,但雅虎有收录:

  • en.wikipedia.org/wiki/Windows_1.0
  • en.wikipedia.org/wiki/Web_2.0
  • http://en.wikipedia.org/wiki/Die_Hard_4.0
  • drupal.org/drupal-5.0
  • keznews.com/3799_Vista_Transformation_Pack_8.0_Final_-_VTP_8.0
  • en.wikipedia.org/wiki/BASIC_8.0
  • drupal.org/drupal-6.0
  • en.opensuse.org/OpenSUSE_11.0
  • www.shopping.com/xGS-Illustrator_11.0
  • www.mythtv.org/wiki/index.php/Opensuse_11.0
  • www.shopping.com/xGS-Suse_9.0
  • en.wikipedia.org/wiki/Mac_OS_X_10.0
  • en.opensuse.org/Bugs:Most_Annoying_Bugs_10.0

而非常相似的下面这些URL,Google就有收录:

  • en.wikipedia.org/wiki/Web_2
  • drupal.org/drupal-5.0-beta1
  • http://keznews.com/3799_Vista_Transformation_Pack_8_0_Final_-_VTP_8_0
  • drupal.org/drupal-6.0-beta1
  • www.mythtv.org/wiki/index.php/Opensuse_10.3
  • www.mythtv.org/wiki/index.php/Opensuse_10.2
  • en.opensuse.org/Bugs:Most_Annoying_Bugs_10.3

比较一下这两个URL,域名,链接深度等几乎都没什么区别,唯一的区别就是URL结尾的不同:

en.opensuse.org/Bugs:Most_Annoying_Bugs_10.3 收录
en.opensuse.org/Bugs:Most_Annoying_Bugs_10.0 没收录

SEOMoz发现了这个问题后,发了一篇帖子。很快Matt Cutts也回了篇帖子,做出了回复和调整。Matt Cutts说,是因为连到URL

http://www.seomoz.org/web2.0

的链接足够多时使Google认为它是应该被收录的那个URL版本,但Google又不收录.0文件,所以SEOMoz的这个页面被删除了。

Matt Cutts还提到一个小技巧,要检查某种文件名是否会被Google中被收录,有一个很简单的指令如:

filetype:exe

上面的搜索结果可以看到,没有直接以.exe结尾的URL被收录,也就是说.exe文件Google不收录。

同样.0文件Google一直到两天前还都不收录。不过Matt Cutts看到SEOMoz的这个帖子后,与工程师重新审视了一下现在以.0结束的URL,肯定也不都是垃圾页面(可能以前大部分是),所以对Google收录算法做了一定调整,重新开始收录.0文件。其实很多网页以.0结束,并不是因为文件类型,而是像SEOMoz那样,在想写Web2.0时,很巧合的以.0结尾而已。

现在搜索一下的话,已经可以看到SEOMoz的这个Web2.0奖网页已经重新被收录了:

第一,这种细节问题,不碰到还真想象不到。

第二,认识人好办事。

第三,Google经常也从善如流。

作者: Zac
版权属于: SEO每天一贴
版权所有。转载时必须以链接形式注明作者和原始出处及本声明。



47 条评论 “Google的奇怪规则:URL不能以.0结尾

  1. 请问在日志中自动通过关键字链接其它页面或网址的是那个插件?
    如题。
    比如一篇文章中有以下内容
    Hello, Dolly. When activated you will randomly see a lyricfrom Hello, Dolly in the upper right of your admin screen on everypage.

    然后内容中的这个hello,可以链接到某一个地址。可能是外站的,也有可能是本站的。

    那个插件叫啥名字啊。它认识我,我不认识它,烦劳各位给介绍认识一下。谢谢

  2. 李彦宏,你缺钱阿,论百度与google的区别

    做过baidu 优化也做过google优化的人大概都回与我用同样的感受,baidu真的贪财.

    让我们来看看baidu和google 的区别吧

    首先baidu 买搜索结果的广告 凡是搜索结果底下有推广两个字的就是付费广告,这种广告当然是厂家的最爱了可是却苦了用户, 为什么呢 你搜索一下”中铁快运”关键字 百度整个页面全都是中铁快运做我搜索者希望通过搜索引擎找到真正的中铁快运 可是面对一页的搜索结果只能 抓头了
    google呢? 不买搜索结果的广告 广告在右边栏 这样完全不会影响用户的判断 而且google的sitelink功能可以将真正的”中铁快运”标注出来.这对于用户是多么友好

    第二:对于seo的态度 google是共同成长,baidu坚决反对,在各种场合的言论都可以看到这两个搜索引擎的鲜明旗帜,为什么呢google认为有效的领导seo可以有利于用户体验以及搜索准确度的提升,然而百度为什么坚决反对呢? 妨碍他挣钱阿 比如房产中介这个关键字如果 seo上去了 就没有客户来他这里买广告了,之前百度清扫垃圾站点有情可原 毕竟对于用户体验不利 最近很多并不是垃圾站点的站也被k了 为什么呢? 这些站点往往都是在百度的利润关键字上排名比较好的 这就是原因阿.但是这些站确实提供了用户想要的信息那怎么办? 没办法用户从此就找不到这些信息了.

    综合这两点 可以看出两个搜索引擎在战略上的很大不同
    google:用户体验之上
    baidu:商家之上

    看起来baidu的策略对于企业可以带来更多的利润,企业以利润为追逐目标无可厚非 可是baidu目前的状况无疑于饮鸩止渴, 想想吧 企业之所以要你的广告是因为你有用户群,你这样不在乎用户体验最后用户抛弃了你那商家也不会对你将什么意气的 最后只能说baidu的策略过于短视 但是baidu这种企业不应该不明白这么浅显的道理啊 左思右想只有一个原因可以解释的通就是: 李彦宏确实缺钱啊

  3. 试着搜索了一下Web2.0 Awards ,已经正常收录了。不过点击之后进不去,出现:“此页面重定向不正确”。然后进SEOmoz.com,出现同样问题,难道是我的火狐有毛病,还是?

  4. SEO出现的问题有时候不认识人还真不好判断
    就算你分析出了正确原因,没搜索引擎给你确认你还是不敢妄下结论
    哎~麻烦

  5. zac不要每天讲一些不切实际的东西,还搞培训呢! 请问你自己一手做过SEO吗?完全有自己做的商业项目有吗? 我感觉你们这群发非常的虚伪.

留个言呗:

您的邮箱不会被显示在页面上。标有*的是必填项。