目前为止网上的大词库(不管是拼音加加还是其它输入法)都有的一个问题就是毒废词过多。有些是个人输入错误,有些是导入词源不准确而造成的(如无拼音词条直接导入,导致部分多音字读音错误),还有很多个人色彩浓郁的词条。随着词库的增大,校对/整理也越来越困难。

而分词库的推出,给我们提供了一个非常好的框架。利用词库分层,可以随时对某层词库进行修补整理、发布。

 

底层:

首先,我们制作一个底层基本库,满足日常需求。在这里,我使用的是xcyfq版主的精确词库+现汉词条+微软拼音词条整合版。这里的现汉词库和微软拼音词库都是四声调拼音格式,我保留拼音并转换成拼音加加格式了。

第二层,常用成语词库。把它放在第二层的原因是成语使用率较高,而且多音字出错不容易察觉。保持一个精确的底层词库可以过滤部分后期词料的错音词。这一层,我用网上下载的13000成语数据库导出文本并转换拼音为拼音加加格式,基本上够用。如有不满足者网上还有一个两万多条的数据库可供整理。

第三层,可以参考其它输入法中的优秀词库。这里我推荐五笔输入法词库,原因是目前为止拼音词库大多数没有仔细校对过,部分错毒词可以用词组工具删除,但对短语还没有非常有效的方法,错音词校对工作量也较大。五笔词库最大的特点和制作目标是重码率低,词库大小普遍适中。制作人需要在有限的五笔编码容量中揉入最常见的高频词,做到了条条审核。用它来作第三层,我们基本上只需要考虑多音字的读音问题了。

 

中层:

第四层,两字词审核增补库

第五层,三字词审核增补库

第六层,四字词审核增补库

第七层,五字词审核增补库

第八层,五字以上词审核增补库,这个库应该较小了。

 

高层:

第九层,个人制作的词料库,如使用分词工具对与己相关的文本资料进行分析得到的词条,可以随时添加至此库。忙时随意取用,闲时审核并移至中层。

第十层,3.x传统大词库。可用词库工具先把与底层相交的词条删除掉再使用,这样的化较会节省内存和CPU资源。该层可开可不开,当感觉自己词库不够用时,可临时打开,写专业文章或用词固定的场合可以关掉。也可连开几个月,然后使用词组工具分析uw.txtuw1.txt把未收录入中底层的词条逐条审核并移入中层。

最后就是个人其它专业词库了,区域性地名、企业名、联系人姓名、专业术语都可以放在这里。随使用频率也可调整其层次顺序。

以上模式,我将其称为词条沉淀,底层最为稳定精确,平时修订很小。也是使用范围最广的词库。高层为补充区,随意开关,随时添加词料,使用稳定的词条定期审核后过滤至中层。

posted on 2005-09-02 09:09  Simon  阅读(1482)  评论(1)    收藏  举报