一般来说,尽量让搜索引擎抓取和索引更多内容是SEO们经常头疼的一个问题,没有收录、索引就无从谈排名。尤其对达到一定规模的网站来说,使网站充分收录是个颇令人费神的SEO技术,当页面达到比如说几十万,无论网站架构怎么设计、多么优化,100%收录都是不可能的,只能尽量提高收录率。
但有时候怎么阻止搜索引擎收录也可能成为一个问题,最近越来越成为问题。需要阻止收录的情况如保密信息、复制内容、广告链接等。过去常用的阻止收录方法包括密码保护、把内容放在表格后面、使用JS/Ajax、使用Flash等。今天看到Google网管博客一篇文章,这些方法都不保险。
使用Flash
Google几年前就开始尝试抓取Flash内容了,简单文字性内容已经能抓取。Flash里面的链接也能被跟踪。
表格
Google蜘蛛也能填表,也能抓取POST请求页面。这个早就能从日志中看到。
JS/Ajax
使用JS链接一直以来被当作不搜索引擎友好的方法,因此可以阻止蜘蛛爬行,但两三年前我就看到JS链接不能阻止Google蜘蛛抓取,不仅JS中出现的URL会被爬,简单的JS还能被执行找到更多URL。
前几天有人发现很多网站使用的Facebook评论插件里的评论被爬、被收录,插件本身是个AJAX。这是个好消息。我的一个实验电子商务网站产品评论功能就因为这个费了不少心思,用Facebook comments插件好处大大的,具体什么好处以后有时间再说,唯一的问题就是评论是AJAX实现的,不能被抓取,而产品评论被收录是目的之一(产生原创内容)。我当时想了半天也没有解决方法,只好先傻傻地既放上Facebook comments插件又打开购物车本身的评论功能。现在好了,Facebook comments里的评论能被收录,就不用两套评论功能了。
Robots文件
目前唯一确保内容不被抓取的方法是robots文件禁止。但也有个坏处,会流失权重,虽然内容是不能抓取了,但页面成了只接受链接权重、不流出权重的无底洞。而且禁止抓取不一定不能被索引。
Nofollow
Nofollow并不能保证不被收录。就算自己网站所有指向页面的链接都加了NF,也不能保证别人网站不给这个页面弄个链接,搜索引擎还是能发现这个页面。
Meta Noindex + Follow
(11月3日补充)读者no1se提醒,为防止收录又能传递权重,可以在页面上使用meta noindex和 meta follow,这样页面不收录,但能流出权重。确实如此,也是个比较好的方法。也有一个问题,还是会浪费蜘蛛爬行时间。哪位读者有能防止收录、又没有权重流失、又不浪费爬行时间的方法,请留言,对SEO界功德无量。
怎样使页面不被收录是个值得思考的问题,没意识到严重性的童鞋可以想想自己网站上有多少复制内容、低质量内容、各种无搜索价值(但用户觉得方便、有用所以又不能拿掉)的分类、过滤URL。
给链接加上nofollow并且用robots禁止,是防止robots禁止会导致权重流失的一个办法
nofollow+robots并不能防止权重流失。
Zac,我在想通过iframe框架之类的应该能解决此类问题,把不需要抓取的内容通过iframe来调用,
iframe似乎也能被收录……
我的网站就不知道怎么优化才能排名了
这样还不能?
你的每日一文现在都快成每年了,终于更新了
更新慢可真的不代表收录不好http://www.fanzemin.com
现在更新确实慢了噢
为了SEO而刻意隐藏内容,这个话题从来没想过,现在比较关心的是隐藏内容后怎么办?难道永远隐藏吗?
博客又开始更新了,是好事。。。
呵呵,最近闹的很凶的京东阻止一淘收录事件。
robots只是一个规范,如果SE不遵守这个规范,没有什么可以禁止的了。
确实是一个比较头疼的问题,现在在做还是加nofollow,同时robots禁止。
看来Robots.txt最保险。Google太强大了,一切页面上的,所见即能“抓”。
终于再一次等到博客更新了啊!!!好期待呢啊!!!!
你终于更新了老师!
我的网站明明做了固定链接,但是搜索引擎还是会抓取到原始的url~ TT
来支持zac哥来了
终于开到更新了!
Z总终于更新博客了,先占座再看
去掉重复内容,或者避免某些被收录确实很难,昨天就发现百度蜘蛛在抓取我一个博客的/?p=xxx的内容,可是我明明已经做了伪静态了。没办法后来又做了个301跳转。
还有WordPress里面的?replytocom= 参数,一不小心就被收录了,用robots禁止,还有加nofollow,但是该收录的时候还是收……
期待ZAC分享更多有用的内容!
ZAC大哥 你终于更新文章了。
您可以来W3SO站长网投稿的,投稿可以加锚文本链接的哦
Robots文件我一直不敢乱写,网上看到的说法不同的
恩,这个问题一直很困惑啊,能不能抓取JS文件呢
终于更新了~!等了好久~!
先顶了再细读,关于隐藏内容我也需要多了解一下
禁止抓取配置一直没动
网站太小,还没涉及到,阻止的问题上
更显有点慢,来了好几次都这这个样子,张满草了
robots+nofollow其实也不能100%作用,只要哪个地方不小心有导入链接,gg照样抓取
终于更新文章啦,天天关注中。。。
这个确实是啊!有的东西还是不想被看到的!
虽然您讲到东西我现在看的不是太懂但是我会好好的看的
如果ZAC的意思是收录的话,那么google是支持meta noindex的。。。如果在意页面成了只接受链接权重、不流出权重的无底洞的话,那就noindex,follow
我已经订阅了,下次更新直接过来
最近百度权重是否很重要呢?
“哪位读者有能防止收录、又没有权重流失、又不浪费爬行时间的方法”
估计不可能吧,不爬该页面,怎么把权重传出去呢。不爬行不是相当于流失权重了么?
支持zac哥
这个的确是问题啊,现在搜索引擎技术越来越强大了,也没很好的方法处理这些问题
这样的话只能用图片了,呵呵!
我特意来支持一下。
不索引,何来权重呢??
伪命题吧
终于更新了,我觉得还是noindex,follow比较好,能不能把这个页面的链接放在靠前的地方以节约时间。
呵呵!这类问题还真没注意过!
ZAC你好!你的SEO实战密码,我看完了!!思路和原理很好,但是我有好多地方不明白的!! 我现在好多SEO的思想都是来自你的实战密码,但是好多东西实际运用和理解却不是那么一回事情。我跟别人推荐你的书籍和思想,好多人都说你的思想过时了,不符合时代的潮流了。我很是纳闷,我觉得好像现在很多网络公司的做法和你所说的都差不多的,很少苦恼。而我给公司做的站,SEO一直都做不上去呢,你能帮我看看吗?www.zunerguang.com就是这样的一个站,我看了你的网站结构和页面优化思想,百思不得其解,还望你能指点。谢谢!祝生活快乐,工作顺利!
这个不知道怎么做呢,只知道robots和nofollow设置的。meta noindex也听过,但没用过
回复太多了啊
有稿子的可以来W3SO站长网投稿,投稿可以加锚文本链接的哦
好久没来看看了
看到了新的课题了。SEO真的是博大精深。。
SEO太难了点,坚持不下来
确实是个值得思考的问题,不过这问题无论怎么思考似乎都得不出一个比较完美的答案。只能尽量把网站规范化,特别是URL的规范化了。虽然一些CMS或者BLOG使用着非常方便,但是造成的页面重复也是存在的。比如WORDPRESS就是如此。
相对之下还是用robots.txt比较保险,虽然会浪费掉一些权重,但是至少把负面效果也给屏蔽了。
seo每年一贴
以前听你语音的时候,你说用多管齐下的,脚本跳转加框架,加js,但是貌似都是君子跳跃,就像你以前说的“搜索引擎不在乎我们”
nofollow难到没有用吗?
收录的问题对于我的网站并不是很关,我最关心的还是我的网站在网上的排名了。
我都不会隐藏东西,隐藏东西有什么好处吗?
期待会有更好的解决方法
有点深奥 好好学习学习
学习了,看来我要对我的www.nbpps.com也要好好努力了,做隐藏内容
我也认为用iframe框架可以解决这个问题,不是说蜘蛛不爬框架里的内容吗?
自己设置隐藏的内容少,几乎没有设置
Google的抓取效率太高了! 很多被robots所禁止的页面还是会被抓取,真是头疼的问题!
恩,不错,现在谷歌貌似很强大了,但我在谈友情链接的时候发现好多站不让谷歌收录。。。真让人无语啊。。
目前也只能先用nofollow+robots,不过少做一些违反规定的内容不就也没那么多事了
目前来说隐藏页面很那解决,因为首先你并不能干预别人不连接向你的页面,用NOFOLLOW,JS之类只是片面。估计得出一个标签了表明此链接不比追寻外链也不必爬行
ZAC就是ZAC,写得文章经典啊
meta noindex也不行吗
看了这篇文章之后,我更多的了解了隐藏内容这个问题。但有时候怎么阻止搜索引擎收录也可能成为一个问题。使用Flash,表格,JS/Ajax,Robots文件,Nofollow,Meta Noindex + Follow。然而怎样使页面不被收录是个值得思考的问题,对于很多网站上的一些内容都是低质量,或者复制的,这些问题都值得我们去思考和想办法解决。。。
“可以在页面上使用meta noindex和 meta follow,这样页面不收录,但能流出权重” ,这句不明白,不收录怎么会有流出权重。不懂不懂..
之前不是说隐藏内容多了,蜘蛛不再再抓取网站中的关键词,可能被K掉吗?现在是有变化吗?
ZAC 在这里所说的隐藏内容,前提是在不作弊的情况下。不使用搜索引擎已经列入作弊行为的情况下,应用一些正当的(目前来说)方法,如曾经的JS,flash等把一些不利于网站优化的内容屏蔽掉,不让搜索引擎进行抓取。我们都知道的,早在几年前,搜索引擎对于JS等代码的态度的是遇到就跳过的,不进行任何分析。因此利用它们来防止搜索引擎抓取一些“类重复”页面,还是很可行的。但现在遇到的问题就是这些脚本现在不能很好的屏蔽这些东西,所以ZAC在这里并不是真的出于无奈而要向大家求助什么,而是提出了一个SEO er 们应该很值得关注的一个问题,它涉及到了网站的权重该如何分配和合理控制的问题,也是一个SEO的根本问题。ZAC在这里呼吁大家一起动脑想办法来解决这个事情。
当然以上仅月汐个人鄙见,欢迎高手扔砖
ZAC是谁啊,不认识。。
我这里栏目很多页面,标题描述都一样的。不过跟这个问题好像又不太相同
内容确实有深度 新手过来放肆学习下
是啊,每天更新伪原创,不需要多2-3篇即可http://www.etao12.com 我的站,谷歌每天快照都更新,收录也增加不少,主要前期培养权重很重要。
Google网站管理员工具后台,有个功能可以删除不想Google收录页面,可以很好的解决这个问题
呵呵,我也曾经为这个问题想过很久,最终找到了一个能解决的办法,但必须要服务器脚本的支持,就是通过服务器脚本来判断USER 是不是搜索引擎,如果是,就自动隐藏数据或链接。
我当时用这个方法,主要是隐藏很多广告,按说,这是一种作弊,不过,我还是用了,从目的上来说,我主要是不想让搜索引擎抓取我太多的广告信息,我还用了这个方法跟踪来到网站的蜘蛛,能知道几点几时什么蜘蛛曾经到了我的网站,访问了哪一些页面,不过从网站服务器端的日志中也能看到这些信息,只是有的人没有那个权限,同时那个日志太复制,眼花了乱。。
ZAC,可以试我的方法。。
有问题,可以email我。。
你的方法有高度的作弊嫌疑,胆不够大的还是避免去试
尽量增加每一个网站页面的质量,是最好的方法。
ZAC老师正在看你的书籍学习呢。来顶一下啦
内容对于我来说理解起来还是有困难的,此站半月一直掉收录和外链
您的书我买了看了 很不错 希望你的博文更新速度快一些 呵呵~~
ZAC老师写的文章真好,你的书籍非常实用!得慢慢研究着来,哈哈
不知道怎么回事,不管我怎么做足文章,谷歌就是对我的站没什么好感,只是大量收录.但从来没给我带来流量.百度虽然收录我的文章少,但至少还能给我带来流量.我就有点搞不懂了,谷歌是不是真没什么人气了.百度比较人性化,想搜什么人家都懂.谷歌不知是我不会用呢!还是怎么的.用不好!不好用的为什么还这么多人青睐他.又不做外贸.百度多好!
zac老师当初是看您的书让我进入了SEO大门,您又开始更新文章相信对不少的SEO界人士都会有帮助;
隐藏内容对SEO重要么?
就像你的boke一样在robots.txt里禁止了/?r=的收录,这样还会传递权重吗?
robots.txt的设置还会影响SEO,以前还真不知道呢
还有和背景颜色相同的链接颜色
弄个图片输出,,,
期待下次的解决办法。
SE技术的不成熟,就会给站长带来一些困扰。唯一完美的解决方案就是让百度针对这个问题修改一下蜘蛛爬行指令。帮助蜘蛛有效率的爬行本身是对SE的友好,我们希望,搜索殷勤同样也希望!
解决不收录防止权重传递 确实是个很现实的问题啊….方法和道路 及目的之间怎么能很容易实现呢..
一直都在关注 Zac 大哥的博客; 从之前的每日一贴到现在 好久才更新一次; 期待最新消息…
有几个月没来过seo每天一贴了,今天过来看看,多了好多文章,都是技术性的探讨啊,看得我这个无技术女孩有点吃力
ZAC老师写的文章真好
最近发现百度更新很没有规律 只要是做了百度竞价跟他们有关 排名基本都考前 感觉百度现在越来越个体化了
我之前用过这样的方法,就是在网站上线之前,把页脚部分的对优化无益的,像联系我们这种的页面的链接用JS代码来完成,也就是说打开某个页面,查看源代码,根本看不见页脚的链接,但是用户打开页面的时候是可以看见的!这些链接都加nofollow,这样谷歌就不会收录,同时在该页面也没有这部分的链接,也就不存在权重的传递,如果怕谷歌去抓取JS里面的链接,可以在当谷歌来抓取该JS文件的时候返回空。应该可以解决!
这是个好方法!
稍微有点作弊嫌疑啊
百度权重怎么老是上不去
以前听说nofollow可以,现在又不可以了吗,求解
nofollow注视一下,在用robots.txt禁止一下。权重流失的话,目前还不可避免。。
现在暂时还没有这些问题的经历,可能自己做的都是一些小型的企业站。。。
像阿里巴巴等网站限制链接外展,只能连接指定网站的话,如何才能实现链接到我的网站呢
我现在是不用考虑怎么去隐藏自己的内容,还想着怎么去曝光那。
还真让人纠结。
我现在的网站内容少,还不牵扯这个问题,但是多学习一下没坏处。
这就是一个学习SEO的好地方!
我的网站是做淘宝活动,现在百度一直不收录麻烦你看一下好吗? 淘宝双十一活动 网址是:http://www.lutianmao.com/
新手,需要学习的东西太多了,继续关注!
今天用学了一招,如何隐藏内容
你的博客更新的很慢啊,很期待啊!
老师帮我看一下我的网站,怎么我每天都更新,发外链但是做了一个月,百度才收录了我的一个页面,不知道怎么回事,谢谢老师!
希望能够通过每日一帖博客来学习到更多的seo知识。我会时常来到访的!
现在zac很少更新了 都看不到新内容了 都是旧的
学到了