在常见负面SEO帖子里提到过,我这个小博客有几十个域名镜像我。有读者问我,怎么知道自己被镜像了,网站被镜像又改怎么处理。今天写个帖子聊一下。
什么是恶意镜像网站?
镜像网站指的是和你的网站基本一样、并且实时同步的其它网站。就像照镜子一样,所以名为镜像。
有的镜像网站是没有恶意的,很可能是你自己设置的,为了方便用户能从多个域名访问网站,被封了一个,还有其它的域名。比如著名的草榴社区,好像就有很多镜像可以访问。
有的镜像,也就是这里讨论的镜像,是不怀好意的,通常是别人设置的,要么为了负面SEO你的网站,要么为了利用你的内容获得排名,然后把用户转向到敏感、非法内容网站上去。
网上有的文章把采集和镜像混在一起。虽然表现形式差不多,但严格来说,采集和镜像实现方法、表现形式是有区别的。
采集的网站一般是提前抓取别人网站的内容,放入自己数据库,再用程序调用到页面上。被采集网站有新内容时,采集网站并不能实时同步更新,要再采集之后才能出现。一旦被采集,内容已经在对方数据库里了,从技术上是无法阻止采集网站显示这些内容的。这篇帖子说的不是这种。
镜像网站并不事先抓取内容,而是有人访问网站时,实时从被镜像的网站调取内容,做些处理(替换URL、文字,加文字、加JS等),然后实时显示。被镜像的网站有任何更新,镜像网站是实时同步的。
网上有卖用于镜像网站的小偷程序的。小偷程序通常也可以用来做采集。为了不给他们做宣传,就不提名字了。从他们的官网摘取几条程序功能,有助于理解后面的内容:
- 全自动分析,内外链接自动转换、图片地址、css、js,自动分析CSS内的图片
- 内置强大替换和过滤功能,标签过滤、站内外过滤、字符串替换、等等
- 伪原创,近义词替换有利于seo
- 增加URL路由,实现全站URL变换,个性化本站URL地址
- 超级模板增加移动模板、自定义栏目功能
- 增加自动获取301、302重定向的采集,解决跳WWW,跳https采集
- 代理IP、伪造IP、随机IP、伪造user-agent、伪造referer来路、自定义cookie,以便应对防采集措施
其实我是挺迷惑,网信办为什么不责令关闭卖小偷程序的网站,这种网站才是真正该关的,而不是另外一些网站。
被镜像有什么危险
从SEO角度看,权重不高的小站、新站,被镜像意味着有其它网站和你的网站内容基本一样,搜索引擎有可能认为你的网站不是原版,镜像网站才是,所以把排名、流量给了镜像网站。
对有一定历史、权重的网站,镜像网站取代原版网站的可能性微乎其微。但从心情角度考虑,被别人镜像,内容被别人偷走,即使没有其它明显后果,也还是挺烦人的一件事。
另一个烦人的事是,镜像网站一般来说并不是要和你提供同样的产品或服务,而是把用户转到赌博、色情等服务上去。有的是通过JS把赌博、色情内容显示给用户,有的直接把用户转向到另外的网站上去。
怎样发现自己网站被镜像了
有时候注意到被镜像了是因为自己网站排名下降,怀疑有人负面SEO。有时候是搜索品牌名称,看到镜像网站。已经知道自己被镜像了好办,直接看下面怎么处理部分。
很多站长则完全不知道自己网站是否被镜像了。有几个我常用的检查方法。
一是百度统计后台:
受访域名部分列出了使用相同百度统计代码的域名。其中出现快照、百度/谷歌翻译等是正常的,但出现一些奇奇怪怪的域名就要查看一下了,比如上图里的第5、7、8个,访问一下就知道都是镜像SEO每天一帖,引诱用户赌博的网站,然后站长把SEO每天一帖的统计代码也照抄过去了。
看看上面列出的小偷出现功能就知道,其实统计代码很容易替换或删除的。所以在受访域名只能看到一小部分镜像网站。
第二是搜索网站的特征句子。最容易想到的是网站品牌名称、首页标题等,确实可以发现一些镜像网站。但如前所述,品牌名绝大多数是会被替换的,所以我更喜欢搜索一些页面上的特征句子,比如本博客最上面的副标题:Zac的SEO博客,坚持12年,优化成为生活。搜索一下就会看到:
看来我的博客很容易吸引菠菜啊。
一般我不搜索帖子里的句子,因为那会返回大量转载、抄袭的页面,不是镜像的。
从上图可以看到,镜像网站自动把title及正文中的品牌词或指定关键词替换了,访问这类网站效果常常是这样的:
上图镜像网站没有转向,也没有用JS显示大量菠菜内容,而是直接在正文中插入菠菜内容和链接。有的镜像网站用JS在页面上半部分显示大量内容,就像在典型赌博网站看到的一样,拉到下面才能看到镜像的内容。
为了搜得更全,还经常需要多搜索其它地方的特征文字。比如搜索页脚的声明中的一句:“明明很久一贴,为什么号称“看到另一些镜像网站:
为什么搜索句子的一半,不是搜索“明明很久一贴,为什么号称SEO每天一帖“呢?还是因为品牌词或特征关键词经常是会被替换的,比如这样:
一般我是用Google做这种搜索,因为Google什么乱七八糟的都收录。
网站被镜像了怎么办?
首先,一些网上提到的解决办法并没有什么用。
比如有的说页面上的链接用绝对地址有帮助,其实小偷程序都会自动替换网址,用相对地址还是绝对地址没什么差别。
还有的说页面上加上网站链接、网站名称、版权声明之类的,搜索引擎会识别哪个是正版。但镜像小偷程序连链接带文字都可以全部自动替换,这么做并没有用。
发现镜像网站后的处理原则就是让镜像网站不能在镜像域名上显示你的内容。考虑到镜像网站是要实时访问和调用被镜像的页面的,所以可以考虑几个方法。
比如用JS检测一下正在被打开的页面是不是在自己的域名上,是的话正常显示,不是的话(域名是镜像网站时)强迫转向到自己域名:
if (window.location.hostname !== ‘www.seozac.com’){
window.top.location.href = ‘https://www.seozac.com/’;
}
(声明:我对程序不熟,代码只是简单举例,具体怎么写,请问你的程序员。)
不过这种方法只对用户有效,搜索引擎不执行JS,还是会抓取到镜像内容。也可以用PHP写脚本判断和转向。
有时候由于种种原因,程序不起作用。另一个直接的方法是屏蔽镜像网站来访问的IP地址。先查一下镜像网站服务器IP:
把对方主机IP先屏蔽了。不过镜像网站来实时抓取用的IP大部分情况下不是域名主机IP,可能是CDN,可能是伪造IP,也可能是多IP的服务器。要发现必须屏蔽的IP,需要查看网站原始日志。我的一个小窍门是,访问镜像网站上一个很少人会访问的页面,比如翻页第70页,然后马上查看日志,这个页面被访问的IP就是应该屏蔽的IP:
屏蔽了这个IP,再访问镜像网站就变成403错误了:
不知道页脚的友情链接是镜像网站自己加的?还是卖程序的人强制加的?
镜像网站经常是会伪造或实时轮换IP地址的,如果屏蔽一个IP网站还能访问,就再访问翻页69页、68页等等,找到更多IP。屏蔽也可以屏蔽IP段。我的经验是,通常镜像网站不会使用超过10个IP地址。
当然也可以写个简单的脚本放自己网站上,比如www.seozac.com/mirror.php:
<?php
echo $_SERVER[‘REMOTE_ADDR’];
?>
脚本唯一功能就是显示访问的IP,然后自己访问一下小偷镜像网站的脚本网址,也就是www.bloody-thief.com/mirror.php,页面上就直接显示镜像网站访问你服务器时的IP了。如果镜像网站替换了URL,这个方法就不好用了。无论怎样,日志中是一定有的。
另外,发现镜像网站,可以向百度、域名注册商、主机服务商投诉,要求关闭网站或删除页面。投诉是否管用就是另一回事了,还是先做好IP屏蔽和URL检测。
最近正学习镜像别人的网站,哈哈
不过发现效果并不太好,就放弃了
这个帖子正好需要,谢谢
对于这样不劳而获的行为,建议写入网络安全法,加大惩罚力度
好像也没什么好的办法。不知道用百度的CDN 防火墙如何,会自动检测IP,可疑IP会自动设置验证码,输入正确验证码后,过一段时间还要验证。
github上有專案https://github.com/hardway120308/no-mirroring
排名一直上不去啊,难受
百度是越来越不好做了
需要查看网站原始日志。我的一个小窍门是,访问镜像网站上一个很少人会访问的页面,比如翻页第70页,然后马上查看日志,这个页面被访问的IP就是应该屏蔽的IP:
这句看不太懂
个人理解应该是访问对方的网站(也就是镜像文章)点击某些不见用的页面,然后查看自己的服务器日志就能看到对方的真实IP。然后我们通过手段屏蔽这个IP即可。
大佬的博客被镜像很正常,用来引流赚钱的,这篇文章很实用,可以防范一些不劳而获的人啦
其实如果是对于百度而言,通过熊掌号自动推送了数据,就算被镜像了,其实应该也是无伤大雅的感觉。
zac老师。你博客前几天一直打不开,是怎么回事
没有打不开啊,可能你那边的ISP屏蔽了什么东西,误伤吧。
那个彩的镜象纯粹就是替换词语了,不过这类替换词语的让人看着非常奇怪,很不通顺,好像这类是那种自动替换句子的软件做的,不过幸好不通顺。句子不通顺的网站基本上没有几个人会第二次登陆的。
只有做的好的网站才会被镜像吧!
采集的、镜像的、铲屎的,放开ZAC,有本事冲我来
学习了,学习了 感谢分享!
网站排名上去了,就掉了,是内容质量不好,或者外部链接丢失嘛
如果我在镜像ZAC老师的站上看到了这篇文章,请大家帮我打120,因为我肚皮必然笑破,哈哈哈哈哈哈
操作的好,还是有排名的
这个技能有必要学习下
老师您好,我想问个问题,就是有很多号称可以帮你做好网站免费推广的软件,这些软件原理是什么?是否是应用了黑帽SEO呢?靠不靠谱?想请教老师,谢谢!
学习了,感谢分享
能被镜像子,说明成功了!
菠菜大多数都这样,我论坛也被镜像过,排名就在我下面。好无语
这个镜像别人网站,真是恶心啊,对于一般SEOer还真不知道怎么处理这种事情,谢谢老师无私分享。
然后马上查看日志,这个页面被访问的IP就是应该屏蔽的IP:
请问使用什么日志分析工具?
看原始日志,不用分析工具。
看完想镜像zac老师的站来玩下了
网上方法都不怎么有效的,真得要镜像你,你也防不了,只需要修改下程序源码,也照样镜像,对于ZAC老师的说法我也只保留我的意见。
我感觉在SEO的路上还很长
我的网站也被好多菠菜站镜像了,请问作者 镜像跟我网站内容同步更新是什么原理?我网站更换IP地址,然后用CDN隐藏真实的IP,这样可以防止被镜像吗?
镜像的网站既然可以直接替换关键词,那为什么不直接把你的跳转js 里的目标网址改成 自己的地址
我的网站就被镜像了,权重被降,十分不爽~
请问后来怎么解决的?
ui刚刚设计出来的页面没有两个月,被n个网站仿,很郁闷,最主要的是连里面的内容都一样,有些就是做了跳转。
感谢分享,已经做了友联
您好,我公司网站发现被镜像了,我用ipv4限制了哪个网站的ip,但是没用!!!看了你这篇文章后当中的查看网站原日志是怎么查,怎么查第几页的数据,求帮助,感谢
把我模板与内容挖过去了怎么办?
我的网站不是被镜像,而是一直被内容采集,限制了ip意义也不大,想如何根源解决
我认为针对机器采集,屏蔽 IP 是最有效的。如果限制了 IP 作用也不大,那么对方可能有多个 IP,或者就像 Zac 老师说的那样,用了 CDN 或者伪 IP,甚至是人工采集的。
人工采集的话,可以尝试在网页禁止键盘、禁止鼠标右键的操作(目的是禁止复制,加大采集难度)。当然他们会审查元素或打开源码去采集。但你的目的就是为了加大这些人的采集难度。总比什么都不做要好。