搜索引擎排名的基础之一,就是关键词与网页的相关性。
机器算法和人不一样的地方是人可以直接理解词的意思,文章的意思,机器和算法不能理解。人看到苹果这两个字就知道指的是那个圆圆的,有水的挺好吃的东西,搜索引擎却不能从感性上理解。
但搜索引擎可以掌握词之间的关系,这就牵扯到语义分析。
前些年SEO界很热烈地谈论过一阵潜在语义索引(Latent Semantic Indexing)。这是来自Google的一项专利,但申请了专利,不一定就会使用在真实算法中。 Google多次暗示,有时候比较明确表示,Google算法中实际没有应用潜在语义索引。但了解潜在语义索引的概念,我觉得对页面内容的写作是非常有好处的,所以还是写贴子介绍一下。
什么是潜在语义索引
所谓潜在语义索引指的是,怎样通过海量文献找出词汇之间的语义关系。当两个词或一组词大量出现在同一个文档中时,这些词之间就可以被认为是语义相关。共同出现概率越大,相关性越高。
举个例子,电脑和计算机这两个词在人们写文章时经常混用,这两个词在大量的文件中同时出现,搜索引擎就会认为这两个词是极为语义相关的,实际上这两个词的意思几乎一样,是同义词。
再比如,苹果和橘子这两个词也经常一起出现在很多文件中,这两个词既不是同义词也不是近义词,但搜索引擎根据共同出现的概率判断,这两个词是语义相关的。这两个词和水果这个词也很相关。这些判断显然都是符合实际情况的。
有时候两个词的相关性直觉看起来没有那么明显,甚至在人的逻辑上就没有什么关系,比如“杰克”和“轮船”,但很可能被搜索引擎判断为有一定的语义关系,因为会共同出现在电影泰坦尼克号介绍中。
要注意的是,潜在语义索引并不依赖于语言,所以SEO和搜索引擎优化虽然一个是英语,一个是中文,但这两个词大量出现在相同的网页中,虽然搜索引擎还不能知道搜索引擎优化或SEO指的是什么,但是却可以从语义上把”SEO”,”搜索引擎优化”,”search engine optimization”,”SEM”等词紧紧的连在一起。
搜索引擎有没有使用潜在语义索引,至今没有定论, Google还曾经否认。但一个事实是,2002年Google买下了拥有潜在语义索引专利的一家公司Allied Semantic。
这种语义分析技术可以给我们在SEO上一些提示。
网站主题的形成
通常逻辑和结构适当的网站都会分成不同的频道或栏目。在不同的频道中谈论有些区别但紧密相关的话题,这些话题共同形成网站的主题。搜索引擎在把整个网站的页面收录进去后,能够根据这些主题词之间的语义相关度判断出网站的主题。
网页内容写作
注意观察的话会发现,搜索排名有一个现象,搜索某个关键词,排在靠前面的网页有时甚至并不含有所搜索的关键词,这很有可能是潜在语义索引在起作用。
比如搜索电脑,排在前面的网页有可能出现一篇只提到计算机却没提到电脑。因为搜索引擎通过语义分析知道这两个词是一回事。
还有一个要注意的是,在进行网页写作的时候,不要局限于目标关键词,应该包含与主关键词语义相关、相近的词汇,以支持主关键词。设想一下,一篇讨论泰坦尼克号电影的文章,却没提到杰克,也没提到沉船,也没提到罗丝,也没提到小李子,也没提到爱情……那么这篇文章是怎么讨论泰坦尼克号的呢?还是有相当大的难度的。
这在搜索结果中也有体现,有的文章虽然大量出现主关键词,但缺少其他支撑词汇,排名往往不好。
向这方面考虑是必然的
搜索引擎不能只是机械地过滤,应该占早人的角度考虑问题
语义分析首先就是会有一个词干库,什么是词干,就是去掉干扰词后拆分的单词。打个比方:
我的愿望是去西藏,首先 “我” “的” “是” “去”等词并没有实际查询意义,那么留下的是 “愿望” “西藏”。
接着查找同义词,可以调用google api查找同义词,可惜出的结果都是英文的。并没有不分语言的情况。
排除语言的影响,数据库的词库会在下面建立关联关系,就是关联词
—愿望—hope—wish
—西藏—Tibet
只要以上 两组中个选一个结果出现,那么搜索结构就符合用户的要求。
这就是整个的语义分析问题的一个粗略的描述过程。
具体实现正如zac所说,不得而知。
请问怎样调用google api查找同义词呀?www.cwbbase.com 倒是含有不少中文的同义词。
请问如何做词干的提取呢
这个知识比较深奥,回去慢慢体会!
啊,可惜,没坐上沙发!
zac,语义分析和潜在语义索引(Latent Semantic Indexing)其实就是搜索bot智能判断相关性罢?
flyingcat: 只能算是一部分吧。
你的意思是说如果我把浙江,广告,这几个词做上去
浙江广告网http://www.zjadw.com
整个就会升上去
我是新手,不懂的太多了
难道搜索引擎要给一个网站一个主要主题吗
是不是有了这个主题,衍生出来的关键词要不其他站的关键词更有权威性那
浙江广告网: 意思是说,想把”浙江”这个词做上去,文字中要有和”浙江”相关的词,比如中国,杭州,宁波,温州…
yibeizhapi: 通过主题,搜索引擎才知道网站和什么相关。
优化就是网站排前8位的意思吗??
ZAC,您好!
我目前就是出现了你所说的这个问题:
“有的文章虽然大量出现主关键词,但缺少其他支撑词汇,排名往往不好。”
很郁闷,也进行了适当调整,但是越来越掉..
从第四位掉到现在的第十位!
很深奥啊!我的也是下降了
这篇很有启发,以后写SEO标准文字的时候需要注意下了
我觉得搜索引擎的外行者可以从吴军的《数学之美》中获得一些答案,http://www.seo1000.com/seo-resource/seo-search.asp?searchkeyword=数学之美
这篇文章强
又学习到了东西
语义分析 仔细看了这篇文章
2楼的同志的说法是错的。
你没有明白什么是:语义。
你所阐述的那种情况应该叫做“话语表达习惯的关键词-相关性”。
关于“语义”的相关性,没这么简单的,那是一个非常复杂的显微心理学范畴。
偶就不举例了,那个要解释,非常铿长。
感谢Zac老师,又是一个值得SEO思考的问题。Zac总会带来新的知识,激发了SEO们的思维,这个对学习SEO的网友来说,很有趣也很重要。
这里有个关键的概念“支撑词”
只是我还是不能很好的把握这个词。
语义分析与关键词拆分,是相反的吧?
词义分析,这是SEO关键词挖掘的重点部分啊,写的很好,