2015年11月26日

中文分词:全切分分词学习

摘要: 全切分分词示例:以一个实例来说明,比如句子:中华人民共和国。假设词典中包含如下词:12345678中华人民共和国中华人民中华华人人民共和国人民共和国共和1.从头到尾依次遍历句子中的每一个字,找出以该字起始的所有的词,并保留单字供下一步使用,结果如下: 1、[中华人民共和国,中华人民,中华,中] 2、... 阅读全文

posted @ 2015-11-26 14:20 第七个甲虫 阅读(1454) 评论(0) 推荐(0)

分词器进阶

摘要: 在实现了.Net版分词器之后,一直想进一步提升搜索速度和体验。最近又学习全切分分词以及IK分词原理,在理解其理念再加上结合本公司业务需求,决定改进分词器算法,宗旨为提升性能,提高体验。对比原有分词:基于词典的最长匹配:基于词典分词的一种方法是将词典构建成一个Trie搜索树,每个节点放一个字,同时将... 阅读全文

posted @ 2015-11-26 14:08 第七个甲虫 阅读(236) 评论(0) 推荐(0)

垂直搜索引擎中的分词系统

摘要: 分词系统的框架与实现介绍 本文适合对搜索引擎有良好概念的读者(原创) 关键字:搜索引擎,分词,Lucene 国内垂直领域的电商或者信息分享类应用都处于高速发展期,其对内容快速搜索的需求越来越强烈,对于能适应自己业务应用的搜索引擎解决方案也越来越重视。同时,通用的可选开源搜索引擎框架或解决方案也越来越 阅读全文

posted @ 2015-11-26 13:50 第七个甲虫 阅读(688) 评论(0) 推荐(0)

导航