会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
format Blog
给我个权限,我format你的硬盘.
博客园
::
首页
::
新随笔
::
联系
::
订阅
::
管理
::
公告
05 2008 档案
【笔记】提高中文分词准确性和效率的方法
摘要:最近在学习中文分词方面的技术。读到KTDictSeg 1.2组件的代码深受启发,作此笔记。 在一切开始之前我们可以用正则表达式把文本中的一些特殊部分过滤出来,比如英文单词,一串数字,日期,Email,电话,邮编,尽可能的过滤,这样减少了实际进行分词的字符,而且准确性更高。 个人想法:可以把所有拼音组合整理出来,用拼音来记录中文词语的组合,存到字典里,这样字典的尺寸就可以大幅减低。匹配时候把汉字转换...
阅读全文
posted @
2008-05-08 19:32
format
阅读(987)
评论(0)
推荐(0)