输入法词库整理理论篇之分词库理解

目前为止网上的大词库（不管是拼音加加还是其它输入法）都有的一个问题就是毒废词过多。有些是个人输入错误，有些是导入词源不准确而造成的（如无拼音词条直接导入，导致部分多音字读音错误），还有很多个人色彩浓郁的词条。随着词库的增大，校对/整理也越来越困难。

而分词库的推出，给我们提供了一个非常好的框架。利用词库分层，可以随时对某层词库进行修补整理、发布。

底层：

首先，我们制作一个底层基本库，满足日常需求。在这里，我使用的是xcyfq版主的精确词库＋现汉词条＋微软拼音词条整合版。这里的现汉词库和微软拼音词库都是四声调拼音格式，我保留拼音并转换成拼音加加格式了。

第二层，常用成语词库。把它放在第二层的原因是成语使用率较高，而且多音字出错不容易察觉。保持一个精确的底层词库可以过滤部分后期词料的错音词。这一层，我用网上下载的13000成语数据库导出文本并转换拼音为拼音加加格式，基本上够用。如有不满足者网上还有一个两万多条的数据库可供整理。

第三层，可以参考其它输入法中的优秀词库。这里我推荐五笔输入法词库，原因是目前为止拼音词库大多数没有仔细校对过，部分错毒词可以用词组工具删除，但对短语还没有非常有效的方法，错音词校对工作量也较大。五笔词库最大的特点和制作目标是重码率低，词库大小普遍适中。制作人需要在有限的五笔编码容量中揉入最常见的高频词，做到了条条审核。用它来作第三层，我们基本上只需要考虑多音字的读音问题了。

中层：

第四层，两字词审核增补库

第五层，三字词审核增补库

第六层，四字词审核增补库

第七层，五字词审核增补库

第八层，五字以上词审核增补库，这个库应该较小了。

高层：

第九层，个人制作的词料库，如使用分词工具对与己相关的文本资料进行分析得到的词条，可以随时添加至此库。忙时随意取用，闲时审核并移至中层。

第十层，3.x传统大词库。可用词库工具先把与底层相交的词条删除掉再使用，这样的化较会节省内存和CPU资源。该层可开可不开，当感觉自己词库不够用时，可临时打开，写专业文章或用词固定的场合可以关掉。也可连开几个月，然后使用词组工具分析uw.txt、uw1.txt把未收录入中底层的词条逐条审核并移入中层。

最后就是个人其它专业词库了，区域性地名、企业名、联系人姓名、专业术语都可以放在这里。随使用频率也可调整其层次顺序。

以上模式，我将其称为词条沉淀，底层最为稳定精确，平时修订很小。也是使用范围最广的词库。高层为补充区，随意开关，随时添加词料，使用稳定的词条定期审核后过滤至中层。

posted on 2005-09-02 09:09 Simon 阅读(1510) 评论(1) 收藏举报

刷新页面返回顶部

输入法词库整理理论篇之分词库理解

公告