摘要: 前言 信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、yisou、中搜等大型搜索引擎一直人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。 搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvist... 阅读全文
posted @ 2008-04-02 20:47 yiling 阅读(337) 评论(1) 推荐(0)
摘要: 中文分词和搜索引擎 中文分词除了在索引结构上影响搜索引擎以外,还会如何影响搜索引擎? 除了搜索引擎的索引过程需要用到分词以外,所有的搜索之前也需要用到分词。有些人误认为"短语搜索"(即两端加上引号的搜索方式,搜索引擎基本都支持这种方式,查看搜索引擎帮助)是直接拿字符串去匹配不用分词,因为结果看上去好像是字符串匹配的结果。其实不然,短语搜索同样需要用分词,只不过在结果中需要位置连续等严格限制。当位置... 阅读全文
posted @ 2008-04-02 20:45 yiling 阅读(441) 评论(1) 推荐(0)
摘要: 中文分词的算法 中文分词技术的研究,已经有几十年的历史了,在20世纪80年代,我国就有人开始研究如何用计算机来自动分词。如何让机器去识别语言中最小的语意单位,不是一件很容易的事情。 如何进行分词?对于程序员来说,最容易想到的办法是,用一个大词典,把所有的词都存入词典中,扫描输入的文本,查找所有可能的词,然后看哪个词可以做为输出。例如: 输入文本: 我是学生 词: 我/是/学生 其实这样... 阅读全文
posted @ 2008-04-02 20:45 yiling 阅读(463) 评论(1) 推荐(0)
摘要: 最近这个项目有个难点就是要用到搜索引擎,而这里最难的就是分词技术,我从网上找了一些分词的资料,在这里探讨一下。 目前的搜索引擎,大多是基于一种称为倒排索引的结构[1]。以什么做为索引的Key值,直接影响到整个搜索引擎的准确度、召回率[2]、速度。我们先看看不使用中文分词的情况。 如果不使用中文分词,可以采用单个汉字索引方式。例如,雅虎,先索引'雅'字,然后再索引'虎... 阅读全文
posted @ 2008-04-02 19:50 yiling 阅读(372) 评论(1) 推荐(0)
摘要: 互联网发展的今天,一方面离 不开其开放、共享的特性带给人们的全新体验,另一方面也离不开数以亿计的为其提供各类丰富内容的网络节点。互联网被普及前,人们查阅资料第一想到的便是拥 有大量书籍资料的图书馆,到了今天你怎么想?或许今天的很多人都会选择一种更方便、快捷、全面、准确的方式——互联网。你可以坐在家里轻点几下鼠标就查到 想要的各类信息,这在互联网没有被普及之前,还都仅是一个梦而已,但如今这一切已成为... 阅读全文
posted @ 2008-04-02 19:38 yiling 阅读(338) 评论(1) 推荐(0)