什么是代理劫持

PR劫持一样,对一些比较难以预防的黑帽陷害手法,本来不太想积极讨论,因为有很多时候会对无辜的站长造成很大的伤害。

在前两天的SEO案例中,提到了代理劫持(proxy hijack),有人问是怎么回事,今天就解释一下。像这种东西都是双刃剑,不怀好意的人看了,又多了一个损人利己的工具。另一方面,已经深受其害的站长看了,也许对他们预防和恢复有正面意义。

代理劫持简单说就是搜索引擎收录了通过代理服务器浏览的网页,而把原本真正的网页惩罚或删除。

国内站长对代理服务器(proxy server)肯定都很熟悉。在使用代理服务器上其他网站时,浏览器显示的URL通常是类似于:

http://www.proxysite.com/proxy/www.yoursite.com

其中proxysite.com是代理服务器域名,yoursite.com是真正要访问的网站。

在浏览器打开这种URL当然没问题,但如果搜索引擎抓取了这种URL,就会对原来的网站形成完全复制内容网页。虽然复制内容网页在绝大部分情况下只是被忽略不计,但在某些情况下,搜索引擎判断错误,会把原始的版本当做是复制而被惩罚甚至被删除。

一般情况下,通过代理访问的URL不应该被收录。但如果有人恶意链接向这个代理URL,搜索引擎也会访问和抓取。

怎么预防或恢复被代理劫持的排名呢?

最简单的,如果看到自己的网页被代理劫持,查一下那个代理服务器的IP地址,自己服务器上把那个IP地址屏蔽掉,禁止抓取。

但有的时候,代理服务器的IP地址会有变化,而且代理服务器又那么多,很可能屏蔽不过来。更复杂的方法是服务器端通过程序鉴别来访问的是否是搜索引擎蜘蛛,是否是真正的搜索引擎蜘蛛。

有些情况下,搜索引擎蜘蛛通过代理URL访问时的浏览器类型(User Agent),还是搜索引擎的蜘蛛。不过,有的代理服务器可能设置为隐藏原始IP地址,隐藏User Agent,这就给判断是否是搜索引擎蜘蛛造成很大困难。

这时网站程序就需要主动验证来访的是否是真的搜索引擎蜘蛛。如果程序检验确实是真实的蜘蛛,就返回正常页面。如果检测不是蜘蛛是正常用户,或是假冒的蜘蛛,那么返回的网页都加入noindex,nofollow标签。这样这些原始网页通过代理访问时,都不能被搜索引擎所抓取。

Google2月份发表在黑板报及网站管理员博客的翻译Matt Cutts的怎样验证Google蜘蛛帖子(Matt Cutts的原贴没发在自己的博客,而是发在英文版网站管理员博客),不是发着玩的,而是有很深的意义。从目前零个引用链接和评论看,大部分人不知道这个帖子有什么用。

百度蜘蛛验证方法在百度搜索帮助中心也可以看到。

按说搜索引擎对这种代理劫持应该有办法判断,不然这就成了一些人可以陷害竞争对手的简易方法。不过,任何算法都有漏洞,就算算法能99%的正确判断,但是漏网的那一个错误就可能使无辜的网站被删除。

写这篇文章是希望介绍给跟多人,让大家能更好的预防。使用这种方法意图陷害他人,相信大家都会十分鄙视的。

很少写帖子时想,看懂的人越少越好。这是一篇。

------首次发布日期: 2008年03月10日

作者: Zac
版权属于: SEO每天一贴
版权所有。转载时必须以链接形式注明作者和原始出处及本声明。



35 条评论 “什么是代理劫持

  1. 在MSN上找你,没有回复,就猜到你在写文章了,果然一会儿就看到这篇文章。
    这个也确实是个问题,我想到一个更简单的办法,不知行否
    代理肯定改不了网站的内容
    只要在 meta name 里对网站作明确的标识
    如说明 Meta name=”Copyright” Content=”http://www.xxx.com”

    搜索引擎就可以判断出来

  2. 看来确实有点可怕,但是我就不知道在无人工干预的条件下,搜索引擎的蜘蛛是否可以通过互联网的连通性有机会从非代理方式抓取yoursite.com的页面呢?

  3. 说市话,在线代理网站太多了,屏蔽不过来,至于在网页中加入什么代码之类的一般都无效,因为在线代理都是模拟浏览器来下载。

    其实,代理劫持也不完全是坏事,在cnbeta上看到过一个http://web-php-proxy.com 的网站,有个firefox插件,直接把不能访问的网页,自动用代理访问,也感觉挺好的。

  4. garwen: 搜索引擎把copyright标签当真恐怕副作用更多,会产生更多其他问题。

    代写英语论文: 我这边没什么变化啊。服务器load,流量都没什么变化。

    飘易博客,观点: 解决方法上你们理解反了。

    bamboo,东莞网站建设: 他们当然考虑到了,可算法永远不可能100%准确啊,漏掉一个就出事了。

    davidchen: 通常原本的yoursite.com是已经收录了的,但出现代理URL后,由于某种漏洞,原来的yoursite.com被当初复制了。

  5. 非google的蜘蛛给予屏蔽?问题是,认出了google的蜘蛛,认不出yahoo等其他蜘蛛,其他蜘蛛会被误伤吗?感觉解决原创还是要靠google的收录速度和原创信任度

  6. 我的一个客户站被这样陷害了。然后我通过这个代理站追溯了一下。发现了一大批被陷害的网站。

    非常恐怖中,真是看懂的越少越好……

    正在用ZAC教的方法处理。

    ……

  7. 看了所有关于黑帽SEO的帖子后,发现原来我也在不自觉的用了不少有涉黑嫌疑的手法~~呵呵,只不过在做的时候会想“这样做应该没事吧。。”于是也就做了,只能说自己功力尚浅,在SEO里还不太分得清孰是孰非,非常希望ZAC在以后能多写些关于黑帽手法的帖子,或者是对引导初涉SEO的人走上正确道路有帮助的文章~

  8. 读后感:
    1,觉得楼主说的代理劫持就是自己弄了个小偷网,然后抓别人数据返回给搜索引陷害被偷的人。
    2,现在Google面临的问题是:
    2.1 如何保证原始网页不被那些PR高,更新快的小偷网站陷害。
    2.2 小偷网是不可能一一被屏蔽的。
    2.3 抓取频率是不能因为小偷网而增快的。因为google要做到合理利用自己的服务器性能和效率。
    2.4 不能显示的告诉各站长:”由于您存在被陷害的可能,所以请在您的网站上插入以下代码….”
    2.5 不可能要求Apache/IIS停止服务器返回http代理标签(User Agent)。
    2.6 我有问题,BaiDu和其他搜索也会遇到同样的问题。
    3,基于以上几点,觉得Google会采取如下策略
    3.1 这就如猜哪个碗里有真正的筛子一样很难一次命中,经过多次采集分析后,根据概率来粗率判断那个站点是最先发布者。所以这就需要加强PR的精确性所延伸出的一系列问题。
    3.2 通知举报机制。明示被黑的人这是目前任何搜索引擎所不能避免的。
    3.3 加大人工审核力度。

  9. 如 小宝 说的:
    我认为不妥,代理劫持确实可恶,google也会采取一定措施解决这个问题。
    但是你的解决方法又太过于极端。

    根据概率来粗率判断那个站点是最先发布者。是的,通过这个你可以判断出原始页面,K掉复制页面。

    但是如果真的有那种通过复制页面作弊的网站呢?难道google会因为“代理劫持”而释放所有的“作弊的站”吗?不管这是站是真作弊还是被陷害?

    因此,这本身是比较难办的事情,预防可以,但是我觉得暂时还没有完全解决的方法。

留个言呗:

您的邮箱不会被显示在页面上。标有*的是必填项。