随笔分类 -  搜索领域

搜索方面:分词、搜索技术等
摘要:为什么需要进行全文搜索呢?一个表中有a、b、c多个字段。我们使用sql进行like搜索的时候,往往只能匹配某个字段。或者是这样的形式:a LIKE “%关键词%”or b LIKE “关键词”这样子根本没法实现全文搜索,如果需要搜索整个表中所有出现过关键词”手机”的商品,一般要匹配商品的标题字段。而如果商品描述中出现”手机”关键词,则没法去匹配。全文搜索,就是不限制搜索某个字段,是对数据库中所有的内容做匹配,是全文级别的搜索。是针对所有内容都进行匹配。这需要预先建立好索引数据结构。比如记录哪个文档中出现过某个关键词。其实在11年的时候就已经研究过sphinx,理解还比较粗浅。那个时候没有在生产 阅读全文
posted @ 2014-04-07 11:34 王滔 阅读(2620) 评论(0) 推荐(0)
摘要:疑问:为什么会涉及到分词方法学呢?为什么需要确定哪些是词语,哪些不是词语呢?为什么需要进行分词,如果不分词会是什么情况呢?分词的根本目的是为了搜索服务的,更确切的是为快速搜索而服务的。了解倒排索引后,就知道全文搜索需要分词了。理解一下正向索引(反向索引就是倒排索引,先产生了正向索引来搜索,后面才发明了反向索引):http://www.cnblogs.com/wangtao_20/p/3647193.html比如要搜索词语"湖南",那么意思是搜索哪些资料中带有关键词"湖南"。如果一篇文档中有2000个字,里面确实有文字"湖南"。但是要拿 阅读全文
posted @ 2014-04-06 10:23 王滔 阅读(7203) 评论(0) 推荐(1)
摘要:倒排索引也叫做反向索引(inverted单词也有反转的意思,只不过大家喜欢翻译成倒排索引)。 倒排索引在搜索引擎中经常用到,倒排索引也叫做反向索引。某天在想,为什么叫做倒排索引呢?倒过来的,反转过来的。那么,非倒排索引是什么样子的。解释一大堆。云里雾里。 后来知道,反向索引是相对正向索引而言的,那什 阅读全文
posted @ 2014-04-05 14:15 王滔 阅读(3696) 评论(1) 推荐(1)