像PR劫持一样,对一些比较难以预防的黑帽陷害手法,本来不太想积极讨论,因为有很多时候会对无辜的站长造成很大的伤害。
在前两天的SEO案例中,提到了代理劫持(proxy hijack),有人问是怎么回事,今天就解释一下。像这种东西都是双刃剑,不怀好意的人看了,又多了一个损人利己的工具。另一方面,已经深受其害的站长看了,也许对他们预防和恢复有正面意义。
代理劫持简单说就是搜索引擎收录了通过代理服务器浏览的网页,而把原本真正的网页惩罚或删除。
国内站长对代理服务器(proxy server)肯定都很熟悉。在使用代理服务器上其他网站时,浏览器显示的URL通常是类似于:
http://www.proxysite.com/proxy/www.yoursite.com
其中proxysite.com是代理服务器域名,yoursite.com是真正要访问的网站。
在浏览器打开这种URL当然没问题,但如果搜索引擎抓取了这种URL,就会对原来的网站形成完全复制内容网页。虽然复制内容网页在绝大部分情况下只是被忽略不计,但在某些情况下,搜索引擎判断错误,会把原始的版本当做是复制而被惩罚甚至被删除。
一般情况下,通过代理访问的URL不应该被收录。但如果有人恶意链接向这个代理URL,搜索引擎也会访问和抓取。
怎么预防或恢复被代理劫持的排名呢?
最简单的,如果看到自己的网页被代理劫持,查一下那个代理服务器的IP地址,自己服务器上把那个IP地址屏蔽掉,禁止抓取。
但有的时候,代理服务器的IP地址会有变化,而且代理服务器又那么多,很可能屏蔽不过来。更复杂的方法是服务器端通过程序鉴别来访问的是否是搜索引擎蜘蛛,是否是真正的搜索引擎蜘蛛。
有些情况下,搜索引擎蜘蛛通过代理URL访问时的浏览器类型(User Agent),还是搜索引擎的蜘蛛。不过,有的代理服务器可能设置为隐藏原始IP地址,隐藏User Agent,这就给判断是否是搜索引擎蜘蛛造成很大困难。
这时网站程序就需要主动验证来访的是否是真的搜索引擎蜘蛛。如果程序检验确实是真实的蜘蛛,就返回正常页面。如果检测不是蜘蛛是正常用户,或是假冒的蜘蛛,那么返回的网页都加入noindex,nofollow标签。这样这些原始网页通过代理访问时,都不能被搜索引擎所抓取。
Google2月份发表在黑板报及网站管理员博客的翻译Matt Cutts的怎样验证Google蜘蛛帖子(Matt Cutts的原贴没发在自己的博客,而是发在英文版网站管理员博客),不是发着玩的,而是有很深的意义。从目前零个引用链接和评论看,大部分人不知道这个帖子有什么用。
百度蜘蛛验证方法在百度搜索帮助中心也可以看到。
按说搜索引擎对这种代理劫持应该有办法判断,不然这就成了一些人可以陷害竞争对手的简易方法。不过,任何算法都有漏洞,就算算法能99%的正确判断,但是漏网的那一个错误就可能使无辜的网站被删除。
写这篇文章是希望介绍给跟多人,让大家能更好的预防。使用这种方法意图陷害他人,相信大家都会十分鄙视的。
很少写帖子时想,看懂的人越少越好。这是一篇。
在MSN上找你,没有回复,就猜到你在写文章了,果然一会儿就看到这篇文章。
这个也确实是个问题,我想到一个更简单的办法,不知行否
代理肯定改不了网站的内容
只要在 meta name 里对网站作明确的标识
如说明 Meta name=”Copyright” Content=”http://www.xxx.com”
搜索引擎就可以判断出来
好象看懂了~!
这完全是损人利己的事情~!
和群发一样!!
代理劫持是讨厌,我觉得Garwen说的防范办法是可以,不知到ZAC以为如何?
好像有那么点懂了,好像又不懂。不过心头有个印象了,以后出现问题还是有可能判断。今天ZAC的博客咋这么快了,一周多的时间都是特别的慢。
呵呵。zac写文章还保留了点~~~
可以判断来源程序吧,直接禁止代理访问,自动跳转到正常网址形式~
如你所愿了,我看不懂,呵呵
习惯上午看老师的文章,就像有的人习惯在早上看报一样
一楼说的这种有效吗
ZAC你说的这个,搜索引擎也考虑到了应该. 技术上应该他们来解决的
收藏至20ju.com
这招真是挺损的
不错,用代理劫持+群发就可以把一般的对手干掉了 :-)
这个问题。可能很少遇到哦。。。呵呵。。。留起备用
学习了。
不过 没有怎么学会。 o(∩_∩)o…
搜索引擎对于这种恶意的做法应该有办法吧.或者是能够进行人工干预的吧…..
zac说清楚了,,,不过还没有碰到这样的情况。所以就先收录了。。。以后希望用不上,呵呵。。
刀能用来切菜,也能用来切人
看来确实有点可怕,但是我就不知道在无人工干预的条件下,搜索引擎的蜘蛛是否可以通过互联网的连通性有机会从非代理方式抓取yoursite.com的页面呢?
说市话,在线代理网站太多了,屏蔽不过来,至于在网页中加入什么代码之类的一般都无效,因为在线代理都是模拟浏览器来下载。
其实,代理劫持也不完全是坏事,在cnbeta上看到过一个http://web-php-proxy.com 的网站,有个firefox插件,直接把不能访问的网页,自动用代理访问,也感觉挺好的。
garwen: 搜索引擎把copyright标签当真恐怕副作用更多,会产生更多其他问题。
代写英语论文: 我这边没什么变化啊。服务器load,流量都没什么变化。
飘易博客,观点: 解决方法上你们理解反了。
bamboo,东莞网站建设: 他们当然考虑到了,可算法永远不可能100%准确啊,漏掉一个就出事了。
davidchen: 通常原本的yoursite.com是已经收录了的,但出现代理URL后,由于某种漏洞,原来的yoursite.com被当初复制了。
SEO陷害。
从这里听说的。嘿嘿
非google的蜘蛛给予屏蔽?问题是,认出了google的蜘蛛,认不出yahoo等其他蜘蛛,其他蜘蛛会被误伤吗?感觉解决原创还是要靠google的收录速度和原创信任度
看懂的人越少越好
看着有点迷糊,有点难度,估计一般人防不了
没看懂,
我的一个客户站被这样陷害了。然后我通过这个代理站追溯了一下。发现了一大批被陷害的网站。
非常恐怖中,真是看懂的越少越好……
正在用ZAC教的方法处理。
……
没有看明白
看是看懂了 不会用
看了所有关于黑帽SEO的帖子后,发现原来我也在不自觉的用了不少有涉黑嫌疑的手法~~呵呵,只不过在做的时候会想“这样做应该没事吧。。”于是也就做了,只能说自己功力尚浅,在SEO里还不太分得清孰是孰非,非常希望ZAC在以后能多写些关于黑帽手法的帖子,或者是对引导初涉SEO的人走上正确道路有帮助的文章~
这种方法也太损了吧
读后感:
1,觉得楼主说的代理劫持就是自己弄了个小偷网,然后抓别人数据返回给搜索引陷害被偷的人。
2,现在Google面临的问题是:
2.1 如何保证原始网页不被那些PR高,更新快的小偷网站陷害。
2.2 小偷网是不可能一一被屏蔽的。
2.3 抓取频率是不能因为小偷网而增快的。因为google要做到合理利用自己的服务器性能和效率。
2.4 不能显示的告诉各站长:”由于您存在被陷害的可能,所以请在您的网站上插入以下代码….”
2.5 不可能要求Apache/IIS停止服务器返回http代理标签(User Agent)。
2.6 我有问题,BaiDu和其他搜索也会遇到同样的问题。
3,基于以上几点,觉得Google会采取如下策略
3.1 这就如猜哪个碗里有真正的筛子一样很难一次命中,经过多次采集分析后,根据概率来粗率判断那个站点是最先发布者。所以这就需要加强PR的精确性所延伸出的一系列问题。
3.2 通知举报机制。明示被黑的人这是目前任何搜索引擎所不能避免的。
3.3 加大人工审核力度。
放心,我看不懂
如 小宝 说的:
我认为不妥,代理劫持确实可恶,google也会采取一定措施解决这个问题。
但是你的解决方法又太过于极端。
根据概率来粗率判断那个站点是最先发布者。是的,通过这个你可以判断出原始页面,K掉复制页面。
但是如果真的有那种通过复制页面作弊的网站呢?难道google会因为“代理劫持”而释放所有的“作弊的站”吗?不管这是站是真作弊还是被陷害?
因此,这本身是比较难办的事情,预防可以,但是我觉得暂时还没有完全解决的方法。
看的不是很懂。不过基本意思明白了。呵呵。学习中。
不错,学习方法了。又学到了一招。呵呵
恩,只有实际中 遇见了 才更有体会。