复制网页(或者叫重复内容网页)指的是两个或多个网页内容相同,或非常相似。
一般来说,搜索引擎不喜欢复制内容网页,他们会尽量判断哪一个是原始版本,然后把其他的复制网页忽略不计。
有两点值得注意:
1)复制网页的判断并没有一个比例。比如说一个网页上有60%或80%的内容和其他网页相同,就被列为复制网页,如果真有一个比例那就简单多了。
2)复制网页并不会带来惩罚。搜索引擎会丢掉其他的复制网页,但不会惩罚搜索引擎认为的原始出处。
不过这就有可能对真正原始出处产生惩罚。比如搜索引擎判断错误,把原始出处当成复制的,而把复制的当成原始出处。
复制内容网页的出现一般有这些可能性:
1)网址规范化问题所产生的。
2)代理商和零售商的网站经常从产品生产商的网站上抄下产品信息。这倒没什么不对,一般产品生产商也都同意,但是绝大部分代理商,零售商,批发商都会直接copy,而不做改动。所以这些电子商务网站上充斥着大量复制内容网页。
3)打印版本。很多网站提供更适于打印的版本,如果没有用robots.txt文件,那么这些打印版本网页就可能会变成复制网页。
4)网页内容由RSS生成。有很多网站,尤其是新闻类网站,都是用其他网站的RSS feed来生成网站内容的,这些内容在原始出处和很多其他网站上都已经出现了。
5)电子商务网站使用Session ID。搜索引擎蜘蛛在不同时间访问网页的时候,被给了不同的Session ID,但实际上网页内容是一样的。不过由于Session ID的参数不同,就被当成了不同的网页。
6)网页实质内容太少。每个网页上都不可避免的有通用的部分,比如导航条,版权声明等等。如果网页的正文部分太少,数量还抵不上这些通用部分,就有可能被认为是复制内容网页。
7)文章抄袭转载等。有的时候是其他人抄袭了你的网站内容,有的时候是善意的转载,有的时候是作者自愿的向不同的网站发送文章,这些都有可能造成复制内容网页。
8)镜象网站。镜象网站曾经很流行,当一个网站太忙太慢的时候,用户可以通过替代镜象来看内容或下载,这也有造成复制内容网页的风险。
9)产品或服务类型之间区别比较小。比如有的网站把自己的产品或服务按地区进行分类,但实际上提供给每个地区的产品或服务都是一样的。在这些按地区分类的网页上,只是把地名改了改,其他内容全都一样。
是的,复制问题有时候是会带来令人头疼的害处的.
在中国,由于国情别人复制你的网页内容有些难控制,但是一定要注意自己别无意中复制了自己的网页内容.
我在制作页面的时候也很担心复制页面,我不是担心人家抄袭我的,而是担心我做的页面是否是复制的。有些内容实在太单一了,根本就谈不上抄袭,只能一点一点地调整…
有的内容是一定的,关键看要怎样优化才好啊
采集,算不算是大量的复制?
采集算复制,所以如果偏要采集的话,要想办法降低相似度。
百度判断原始版本的技术是最差劲的。我的一个博客,只要被复制就可能把我的删除,多么垃圾的技术
所以,其实文章对于搜索引擎来说没有原创,只有复制(也就是镜像),所谓的原创就是被搜索引擎判断为非复制的网页。对吧
我想知道的是,现在做资讯网站的很多,而信息内容总是有限的,那么复制内容网页就会变得多起来。额,新浪 搜狐 163都可能每天产生很多的复制内容页面,搜索引擎应该还是根据网站权重来评定排名的。
整个百度空间,转载自己博客里面的内容,似乎也是挺恐怖的事情!
不知道复制网页会不会被搜索引擎惩罚
只要原创定下来之后,其他复制站的权重自然降低
一直没有去关注这个方面!
Z老师谢谢啦!
嘿嘿!
谢谢啦Z老师