随笔分类 - 中文分词
摘要:最近想到给分词加点扩展,于是将以前的代码找出来写了一个分词器这个分词器可以对现在将代码贴出来:(1)搜索词进行扩展(这个需要依赖一个近义词词库,但网上找了好久,没有适合的,只有小学生的成语近义词)(2)找出地址(类似的也可以找出 人名, 歌名。。。,这个也需要一个词库)(3) 将搜索结果变为汉语拼音 (这个依赖了pingyin4j)该分词器以 词典为主, 如果你词典里有你需要的词,那么他就可以分出来,测试结果:例句:分词爱琪美我该分词器以 词典为主, 如果你词典里有你需要的词,那么他就可以分出来 北京海淀火锅普通分开:分词 爱琪美 我 该 分词 器 以 词典 为主 如果 你 词典 里 有你 需
阅读全文
摘要:Imdict的官方网址http://code.google.com/p/imdict-chinese-analyzer/做项目开始,我才发现读源码是一件很能提升自己编码水平的一件事情在别人的源码里,你会发现好多编码思想,还有一些很实用的方法,他们都写出来了在巨人的肩膀上 这话说的真不错该分词器不能添加自己定义的词库,如果你懂java(读了源码你自己也可以加进去)网上有个人早对他做了修改http://insolr.com/forum.php?mod=viewthread&tid=1057&extra=page%3D1在这里我曾经发过添加自己词库我就不介绍了,onedear 介绍的
阅读全文
摘要:上一篇我讲到自己写的一个分词程序,在这个程序里我用了一个简单的消除歧义的思想,就是在自己分词时候得到了得到正向最大匹配的各个词的时候,从左到右判断得到的每个词,怎么判断呢?我们把这个词最后面的那个字与他后面的词的第一个字组合起来和词库比较,若有这个组合词的话,我们就把这个组合词与他的前后母体分开,成为单独的词例子:电子产业和服装业如果正向最大匹配的话我们得到 (词库里得有“和服” “电子产业” “服装业” “服装”)电子产业 和服 装 业 (这当然不是我们想要的结果)如果我们把 “和服” 的“ 服” 字 和“装” 搭配的时候 让他和“和服” 分割电子产业 和 服装 业 (这个结果要比上一个好点
阅读全文
摘要:最近自己动手写了一个中文分词器,没有什么高深的算法,就是基于词库匹配的一个简单程序。该分词器支持中英文混合词,像“大s” ,“小3” 什么的,只要自己的词库有这个词,他就能分出来。这个分词原理是正向最大匹配,不过只有简单消除歧义。个人觉得消除歧义的话,只适合部分句子,有时候消除歧义反而会让有些正常语句分出不好的结果来。该程序没有做过多消除歧义,个人觉得消除歧义这种方法对于一个通用的分词器作用很大。如果你的分词器是用来针对某个领域的话,消除歧义不建议使用,如果你了解分词原理并对消除歧义测试结果做过大量测试的话,你会发现这点。(这只代表我个人观点,不喜勿喷)现在开始介绍下该分词器:分词原理 : 假
阅读全文

浙公网安备 33010602011771号