04 2012 档案

摘要:搜索引擎就是运用机器学习、数据挖掘知识的典型啊。简单的来说,搜索引擎就是存储所有的可以访问的静态网页并将它们存储起来,当你查询的时候将那些跟你的要求相关的网页送给你。搜索引擎也经历了一段时间,期间起起伏伏、波澜壮阔,从雅虎的目录式的搜索引擎,再到谷歌的崛起,被墙,然后百度开始NB起来,到现在国内还是有很多家企业进入搜索领域(搜狗、搜搜、360等等)。 从前面的介绍可以看出,建立一个搜索引擎首先需要做的是获取所有的可以访问的网页,这一过程称之为爬取(crawling),相应的程序称之为爬虫(crawler)。然后需要将这些网页存储起来。因为在使用搜索引擎时,我们提供给搜索引擎的是好几个“词... 阅读全文
posted @ 2012-04-30 19:18 追风人 阅读(186) 评论(0) 推荐(0)
摘要:字符串匹配有很多算法,最简单的算法就是从模式P的开头(j=0)和主串S的某个位置开始进行比较(i),如果相等(p[j] == s[i]),则比较模式串的下一个位置和主串的下一个位置(++j;++i),如果不相等(p[j] != s[i]),则要发生回溯,从主串的位置i-j重新开始匹配,这样速度会收到影响( i = i-j+1; j=0 )。 KMP算法的优势即在于避免了回溯,当模式串j和主串i位置的字符不匹配时,查询一个数组next,从模式串位置p[ next[j] ]开始和主串的i位置开始匹配,这样主串就没有回溯,速度也就加快了,那么如何计算next数组呢? 首先对nex... 阅读全文
posted @ 2012-04-03 15:56 追风人 阅读(227) 评论(0) 推荐(0)