超SEO的搜索引擎观察博客:    SEO技术    SEO新闻    关键词优化    Google算法    Google新闻    百度新闻

超SEO博客

关注搜索引擎发展、透析搜索引擎原理、优化搜索引擎排名、分享、交流SEO技术
  博客园  :: 联系 :: 管理

SEO Google算法解析系列之潜在语义索引(LSI)

Posted on 2009-09-05 15:05  Google优化  阅读(2355)  评论(0编辑  收藏  举报

  作为一个SEOer,我们必须对搜索引擎排名算法有一定的理解,才能真正谈优化,接下来将针对Google一系列算法就我的一点理解和心得与大家共享,希望大家多多指教,相互学习。这里我们先从关键词的相关性算法TF/IDF开始。

  搜索引擎作弊最快的方法当属关键词堆砌,这源于信息检索中相关性算法本身的缺陷,为了对抗这种作弊方法,搜索引擎通过潜在语义索引 (Latent Semantic Indexing,LSI)算法来发现这些作弊页面,LSI算法也是信息检索领域一种古老的算法,1988年由S.T. Dumais等 人提出,主要用于自然语言理解,通过统计的方法对文档的进行语义分析,发掘同义词,相关词组等等。举个简单的例子:比方“汽车消费”这个词,通过分析大量 页面发现这个词频繁的出现在“汽车消费贷款”,“中国汽车消费网”等等这些词组中,那么机器可以认为人们的语言习惯是将“汽车消费”和“汽车消费贷款”、 “中国汽车消费网”等等联系在一起来描述一些事情。通过这样的分析发现一些由机器生成的关键词堆砌页面,因为搜索引擎认为机器生成的页面不会出现这些相关联的词组。

  LSI算法被用于 Google的很多应用,如Adwords,Google Suggest,以及上面提到的反作弊等等。

  LSI算法提醒我们在搜索引擎优化的时候要注意页面的关键词密度,以及相关词组的使用,尽量使用比较自然的语言方式来提高页面的相关性。