爬行、抓取、索引、收录，指的都是什么？

作者：Zac
更新日期： 2017年12月28日

不对呀，这个index标签，是指告诉蜘蛛可以抓取该页面，那么noindex不就是不允许抓取该页面吗？！那么为什么文章最后的几个说明里有“noindex标签不能节省抓取份额。搜索引擎要知道页面上有noindex标签，就得先抓取这个页面，所以并不节省抓取份额。”

留言说明，这位读者并没有太明白什么是抓取，什么是索引，index和noindex标签的意义又是什么。noindex标签不是不允许抓取该页面，是不允许索引该页面，这两者是不同的意思，有不同的功能。

看SEO有关博客和论坛时能感觉到，很多SEO并没有理解爬行、抓取、索引、收录这些概念到底指的是什么，区别在哪，noindex、nofollow、robots文件的功能又是什么。对这些概念没有精准理解，处理大型网站结构，决定什么页面需要被抓取，什么需要被索引，哪些页面需要禁止抓取、索引等等情况时，就很难明白该怎么做。甚至就像抓取配额那篇帖子的很多留言说的，提到这些情况的处理时，根本看不懂在说什么。

这么基本、重要，又比较容易混淆的SEO概念，我以为以前在博客里写过了，看了留言，翻翻以前帖子才知道，原来以前没写过。SEO实战密码书里是有写的，但SEO每天一贴里并没有写过。今天补上。

爬行是什么？

爬行指的是搜索引擎蜘蛛从已知页面上解析出链接指向的URL，然后沿着链接发现新页面（也就是链接指向的URL）的过程。当然，蜘蛛并不是发现新URL马上就爬过去抓取新页面，而是把发现的URL存放到待抓地址库中，蜘蛛按照一定顺序从地址库中提取要抓取的URL。

抓取是什么？

抓取是搜索引擎蜘蛛从待抓地址库中提取要抓的URL，访问这个URL，把读取的HTML代码存入数据库。蜘蛛的抓取就是像浏览器一样打开这个页面，和用户浏览器访问一样，也会在服务器原始日志中留下记录。

索引是什么？

索引指的是将一个URL的信息进行整理，存入数据库，也就是索引库，用户搜索时，搜索引擎从索引库中提取URL信息并排序展现出来。索引的英文是index。索引库是用于搜索的，所以被索引的URL是可以被用户搜索到的，没有被索引的URL用户在搜索结果中是看不到的。

要注意的是，所谓“一个URL的信息“，并不限于蜘蛛从URL上抓取来的内容，还有来自其它来源的信息，如外部链接、链接的锚文字等。有的时候，索引库中关于这个URL的的信息，根本没有从这个URL抓取来的内容，但搜索引擎知道这个URL的存在，并且有一些其它信息。

抓取和索引不是一回事。

收录是什么？

我个人觉得收录和索引没有区别。只不过收录是从搜索用户角度看的，搜索时能找到这个URL，就是这个URL被收录了。从搜索引擎角度看，URL被收录了，也就是这个URL的信息在索引库中存在。英文并没有收录这个词，和索引用的是同一个词index。

noindex的作用是什么？

页面头信息中放上meta noindex标签是告诉搜索引擎不要索引这个URL，也就是用户搜索时找不到这个URL的信息，这个URL不会返回在搜索结果列表中。

noindex不是告诉搜索引擎不要抓取这个URL，实际上，noindex要起作用，这个URL是必须先被抓取的，不然搜索引擎怎么看到页面HTML代码中有noindex标签呢？

robots文件的作用是什么？

robots文件是告诉搜索引擎，某些URL不要抓取。注意，这里说的是不要抓取，没说不要索引。和noindex是正相反的。

nofollow的作用是什么？

给链接加上nofollow属性是告诉搜索引擎，不要沿着这个链接爬行，就当这个链接不存在。注意，nofollow只是告诉蜘蛛不要爬这个链接，没有说不要抓取链接指向的URL，也没有说不要索引链接指向的URL，nofollow既没禁止抓取，也没禁止索引。

概念说过后，指出几个SEO们经常弄不明白的情况：

没有被抓取的页面是可以被索引的

也就是说，蜘蛛没有访问和抓取这个页面（比如被robots文件禁止抓取），这个页面却有信息存在索引库中，用户搜索时还能看到。

比如，淘宝整个网站用robots文件禁止百度蜘蛛抓取，但没有用noindex禁止索引（如上面说的，禁止抓取后，就没办法禁止索引了，不抓取，就看不到noindex标签了），所以即使百度没有访问和抓取淘宝页面，但淘宝很多页面是被百度索引的，用户可以搜到的：

淘宝禁止百度抓取，但没有禁止索引

百度从网上那么多链接知道淘宝首页的存在，通过链接的锚文字也知道这个页面标题大概是淘宝之类的，当然更知道百度口碑里的评价数。所以即使百度蜘蛛没有抓取淘宝首页，用户还是能搜到，并且显示一些百度知道的信息。

要想百度不能返回淘宝首页该怎么办呢？取消robots文件的禁止抓取，页面上用noindex禁止索引。

被抓取的页面是可以不被索引的

最常见的就是上面说过的，页面头信息使用noindex禁止索引，页面被抓取，读到noindex后，不被索引，不会在搜索结果中返回。老页面新加noindex也不是马上删除索引，还会保留索引一段时间，但不会返回在搜索结果中。

加了noindex的页面上的链接是可以被跟踪一段时间的，但时间长了，有noindex的页面搜索引擎可能就不再抓取和索引了，上面的链接也就无效了。

还有可能是因为页面内容是抄袭、转载、低质量的，搜索引擎虽然抓取了页面，索引过程中检测出这些内容问题，被丢弃，没有被索引。所以页面没有被收录，通常要先检查原始日志，看看是否被抓取过，如果被抓取过，可能是内容质量问题，如果根本没被抓取，建议先看看网站结构是否有问题。

加了nofollow的链接目标页面可以被抓取和索引

前面说了，nofollow既不禁止抓取，也不禁止索引。nofollow的作用是告诉蜘蛛不要跟着这个链接爬，就当这个链接不存在，但nofollow只对这个链接起作用，对别的链接没作用，这个链接加了nofollow，不意味着别的地方就没有正常的指向这个URL的链接，只要别的地方出现了没加nofollow的链接，目标URL还是会被发现、抓取（假设没被robotx文件禁止）、索引（假设没加noindex )。

上面这些概念和应用在SEO中是很重要的，如果还没看懂，我也不知道该怎么再解释了，只能建议再多读几遍。

------首次发布日期： 2017年07月24日

50 条评论 “爬行、抓取、索引、收录，指的都是什么？”

千流百羽说道：

2017年07月24日 10:28 上午

第一！！！！！！谢谢老师！

回复
1. 美术字说道：
  
  2017年07月24日 9:56 下午
  
  开始讲基础知识了？我是偶尔看看你写的文章，不是天天来，还好你也不是天天写！更新速度不快不慢，给读者建议，如果想学seo，没事就拿seozac的几篇文章和网站结构分析分析就ok了！其他的seo站太水，我的网站就是参考zac制作的！
  
  回复
  1. www.scjinshu.com说道：
    
    2017年07月25日 12:02 上午
    
    我也是看过zac大神的文章后就不愿意看别人的了 zac大神的文章通俗易懂我以前什么都不懂只看了两遍第三版seo实战密码就做了一个网站请建站公司做的的我不懂代码但是所有的要求都是按照我自己的要求做的现在优化了快五个月了，明显有转化率了也开始接电话报价了感谢zac
    
    当时上线很仓促建站五个月首页内页的标题改了二至三次事实证明新站频繁改标题是不会降权的今天刚换的服务器第一个服务器被建站的坑了
    接下来开始美化网站的图片
    再次感谢zac大神希望多多发些干货内容
    
    回复
2. lynn说道：
  
  2017年08月15日 5:13 下午
  
  借楼，谢谢！如果链接A被robots文件禁止了，那么B页面上的A链接蜘蛛还会爬行吗？
  
  回复
  1. Monologue说道：
    
    2018年01月20日 10:24 上午
    
    不会了，robots针对的是整个网站的链接；在多看几遍nofollow、robots和noindex的概念，差不多就理清思路了
    
    回复
Zeusir说道：

2017年07月24日 10:29 上午

如果一个网站的某个链接被nofollow，假设其他别的地方没有正常的指向这个URL的链接，那么是不是这个页面就一定不会被收录？
还有Zac老师说到nofollow会浪费权重，那么现在很多外贸网站用nofollow标签，是不是主要都是为了让更多的页面被收录而已？

回复
1. 冀雪强说道：
  
  2017年07月24日 10:57 上午
  
  要向你说这个假设，那这个页面肯定不会被爬行、更不会被抓取和索引！
  
  第二个问题，可以再看下ZAC关于nofollow的帖子；
  内部链接nofollow控制权重分布
  https://www.seozac.com/onpage/internal-nofollow/
  
  回复
  1. Zeusir说道：
    
    2017年07月24日 7:46 下午
    
    第一个关于nofollow收录的讨论，我自己网站的感觉是，google的比较容易收录nofollow的页面，哪怕自己没有去刻意为这些页面做非nofollow的链接；但是百度就很难去收录nofollow的页面，要过很久才会收录。
    第二个问题，你贴的贴子是ZAC2008年的帖子，可以看他后来的更新，提到nofollow控制PR流动已经不管用了。
    https://www.seozac.com/seo-news/seo-and-others/
    
    回复
2. PCGOGO说道：
  
  2017年07月24日 4:56 下午
  
  除了你说的两个条件，还要加上你这个链接本身也是禁止蜘蛛爬行，禁止索引！
  
  回复
3. hao说道：
  
  2017年07月24日 9:07 下午
  
  文章并没有说nofollow会浪费权重呀，相反的，如果nofollow禁止的是一些通往外部的链接，不访问，不是能更好的保证自身网站的权重吗？
  
  回复
振动筛说道：

2017年07月24日 3:54 下午

爬行、抓取、索引、收录这些都比较易懂~老师今天是知识普及课^_^

回复
提升机说道：

2017年07月24日 3:59 下午

最近一段时间感觉好多收录和索引增加都比较迟钝啊，不知道是个案还是普遍现象~

回复
深圳网站建设说道：

2017年07月24日 5:11 下午

收录很重要，外链也是很重要，在SEO每天一贴学习到很多知识。

回复
PS说道：

2017年07月24日 7:43 下午

精辟

回复
www.qiaoluseo.com说道：

2017年07月25日 9:44 上午

noindex标签以前没用过，谢谢老师分享！

回复
神吐槽网说道：

2017年07月25日 11:14 上午

seo已经不在第一页了。

回复
茶人码头说道：

2017年07月26日 9:47 上午

基本的概念搞清楚以后，才会方便后续SEO优化工作的开展。

另外，想了解下，目前贵站从http转换成https版本之后，网站在百度的排名效果是否有明显提升？

回复
耐腐蚀泵说道：

2017年07月26日 10:12 上午

今天还在看收录和索引的区别，看当到：百度的我个人觉得收录和索引没有区别。只不过收录是从搜索用户角度看的，搜索时能找到这个URL，就是这个URL被收录了。我就放心了。我还以为我的网站内容出了问题~ 多谢zac

回复
冲锋衣说道：

2017年07月26日 11:49 上午

老师一如俱往的神采奕奕文章还是那么实用干货谢谢看看我的网站老师评价下呗 http://www.bjqingyang.com

回复
Lance说道：

2017年07月26日 2:14 下午

http://www.oakleysunglassesoutletshop.com/robots.txt 这个站的robots是全禁的但是谷歌搜索出来结果的描述并不会显示‘’此网站的内容由于robots限制而无法显示”，想问下老师这种是怎么做到的

回复
面试技巧说道：

2017年07月26日 2:55 下午

网站最近的权重掉的很厉害呀，SEO越来越难了

回复
泪雪博客说道：

2017年07月26日 3:53 下午

又算是复习了一下，因为之前就在《SEO实战密码》中学习过了，所以基本完全能够理解，不过这写东西确实有些绕，很多人如果从一开始没有分清楚，可能就会一直稀里糊涂的了吧！

回复
想印网说道：

2017年07月26日 4:50 下午

谢谢分享，总结得很到位。

回复
果儿妈说道：

2017年07月26日 6:04 下午

昝老师，看nofollow的时候有点要被绕晕的感觉。真得好好消化下，感觉做SEO这么久，还真的没把这些概念吃透。感谢昝老师，还愿意花这么多时间耐心讲解这些。受教啦！

回复
小白微商网说道：

2017年07月27日 10:52 上午

Z神总是能把问题说的很清晰。

回复
scshengbang.com说道：

2017年07月27日 3:52 下午

我的站不加www比加了www多了很多是什么原因呢？

回复
Andy说道：

2017年07月28日 9:59 上午

写的很好很清晰，学习了。

回复
靠谱赚钱软件说道：

2017年07月29日 3:12 下午

这些都是很重要的关键词的认识。

回复
淘宝说道：

2017年07月30日 2:50 下午

不知道该怎么优化。。

回复
看不清真相说道：

2017年07月30日 4:57 下午

你英语好就可以随便拷贝国外文章吗？

回复
1. Zac说道：
  
  2017年07月30日 10:57 下午
  
  我没有拷贝任何国外文章，这是我自己写的。照你这逻辑，中国人就不配说SEO，因为SEO是英语，外国人发明的，用了这个词就是抄袭啊。这是什么逻辑？
  
  回复
郑州初学者说道：

2017年08月1日 2:34 下午

这篇文章新手必看，我是SEO的初学者，几乎每周都要看一看ZAC老师的博客，很受教，希望有一天和Zac老师能当面交流，久仰！

回复
烽火台说道：

2017年08月2日 3:41 下午

这些文章很有用，谢谢了

回复
想要深入了解SEO的小白说道：

2017年08月2日 4:57 下午

受教，谢谢Zac老师的好贴

回复
SEO初学者说道：

2017年08月3日 3:25 下午

刚开始做SEO，小白一个，多看看大神的博客，努力成长！

回复
神圣计划客户端说道：

2017年08月11日 3:05 下午

原来是这样！

回复
Vivianna说道：

2017年08月14日 10:38 上午

Hello, zac老师！有时间可否写写新站的外链建设相关的文章。不知道从哪里做起。也不知道频率应该是怎样。前期是否可以先做一些比较容易做，效果可能不会那么好的外链先积累着？谢谢！！！！

回复
土鳖哥博客说道：

2017年08月18日 5:27 下午

新手，正在慢慢学习。这篇基础知识普及啊，看懂了

回复
茗彩说道：

2017年08月18日 11:23 下午

习惯了每次看文章的时候多反思自己所操作的。

回复
茶诗说道：

2017年08月19日 9:25 下午

受教了，谢谢

回复
天猫转让平台说道：

2017年08月31日 11:27 上午

可能智商不足，之前一直对这些基础有点拎不清，弱弱的说一句：刚刚看了两遍帖子之后好像懂了。。。

回复
九哥说道：

2017年10月17日 10:13 上午

SEO我还是个小白，关键词都没有几个 [泪] 还得好好研究啊！

回复
HG红菇网说道：

2017年11月23日 1:38 下午

受教了

回复
liyan说道：

2018年05月10日 10:14 上午

非常感谢，很有帮助

回复
安静先生说道：

2018年06月7日 1:31 下午

这是在那个博客上发的

回复
bruceluo说道：

2018年11月1日 4:18 下午

假如A和B两个产品页面重复，只是颜色区分。
然后B加入了noindex，A没加。
当然这里有个前提条件是都没有canonical标签。
权重会从B指向A吗？

回复
1. Zac说道：
  
  2018年11月1日 9:04 下午
  
  不会
  
  回复
  1. bruceluo说道：
    
    2018年11月2日 7:01 下午
    
    谢谢，我这里有一个网站从google search console下载了1000条收录的网址，其中有将近一半是带参数的网址是收录了，大部分都是产品页中带仓库，币种这样参数的网址，内容除了价格外，基本没什么区别，且这些网址外部几乎没有推广，我们都有加入了canonical标签指向不带参数的网址，但还是被收录了。
    
    担心被分散太多的权重，所以我的想法是加入noindex这样的处理方式。但是这样又有两点担心：
    1、没有达到canonical权重集中到某个产品的效果。
    2、noindex,follow与noindex,nofollow从长远来看没有什么区别。这样权重还有多少传递到其他页面？
    So in noindex and follow is essentially kind of the same as a noindex, nofollow. There’s no real big difference there in the long run.” John Muller, 2017
    
    纠结啊。。。
    
    回复
随意看客说道：

2020年01月8日 1:57 下午

如果说是robots文件设置不被抓取，是否是自然不被索引（前提网页没有被搜索引擎抓取过）

回复
巴啦啦小魔仙说道：

2024年08月6日 2:22 下午

您好，问下bing的引擎搜我们官网就显示IP地址，也进不去，大神可以指点一二吗？

回复

SEO每天一贴

爬行、抓取、索引、收录，指的都是什么？

爬行是什么？

抓取是什么？

索引是什么？

收录是什么？

noindex的作用是什么？

robots文件的作用是什么？

nofollow的作用是什么？

没有被抓取的页面是可以被索引的

被抓取的页面是可以不被索引的

加了nofollow的链接目标页面可以被抓取和索引

相关帖子

50 条评论 “爬行、抓取、索引、收录，指的都是什么？”

留个言呗：取消回复

爬行是什么？

抓取是什么？

索引是什么？

收录是什么？

noindex的作用是什么？

robots文件的作用是什么？

nofollow的作用是什么？

没有被抓取的页面是可以被索引的

被抓取的页面是可以不被索引的

加了nofollow的链接目标页面可以被抓取和索引

相关帖子

50 条评论 “爬行、抓取、索引、收录，指的都是什么？”

留个言呗： 取消回复

留个言呗：取消回复