目前为止网上的大词库(不管是拼音加加还是其它输入法)都有的一个问题就是毒废词过多。有些是个人输入错误,有些是导入词源不准确而造成的(如无拼音词条直接导入,导致部分多音字读音错误),还有很多个人色彩浓郁的词条。随着词库的增大,校对/整理也越来越困难。
而分词库的推出,给我们提供了一个非常好的框架。利用词库分层,可以随时对某层词库进行修补整理、发布。
底层:
首先,我们制作一个底层基本库,满足日常需求。在这里,我使用的是xcyfq版主的精确词库+现汉词条+微软拼音词条整合版。这里的现汉词库和微软拼音词库都是四声调拼音格式,我保留拼音并转换成拼音加加格式了。
第二层,常用成语词库。把它放在第二层的原因是成语使用率较高,而且多音字出错不容易察觉。保持一个精确的底层词库可以过滤部分后期词料的错音词。这一层,我用网上下载的13000成语数据库导出文本并转换拼音为拼音加加格式,基本上够用。如有不满足者网上还有一个两万多条的数据库可供整理。
第三层,可以参考其它输入法中的优秀词库。这里我推荐五笔输入法词库,原因是目前为止拼音词库大多数没有仔细校对过,部分错毒词可以用词组工具删除,但对短语还没有非常有效的方法,错音词校对工作量也较大。五笔词库最大的特点和制作目标是重码率低,词库大小普遍适中。制作人需要在有限的五笔编码容量中揉入最常见的高频词,做到了条条审核。用它来作第三层,我们基本上只需要考虑多音字的读音问题了。
中层:
第四层,两字词审核增补库
第五层,三字词审核增补库
第六层,四字词审核增补库
第七层,五字词审核增补库
第八层,五字以上词审核增补库,这个库应该较小了。
高层:
第九层,个人制作的词料库,如使用分词工具对与己相关的文本资料进行分析得到的词条,可以随时添加至此库。忙时随意取用,闲时审核并移至中层。
第十层,3.x传统大词库。可用词库工具先把与底层相交的词条删除掉再使用,这样的化较会节省内存和CPU资源。该层可开可不开,当感觉自己词库不够用时,可临时打开,写专业文章或用词固定的场合可以关掉。也可连开几个月,然后使用词组工具分析uw.txt、uw1.txt把未收录入中底层的词条逐条审核并移入中层。
最后就是个人其它专业词库了,区域性地名、企业名、联系人姓名、专业术语都可以放在这里。随使用频率也可调整其层次顺序。
以上模式,我将其称为词条沉淀,底层最为稳定精确,平时修订很小。也是使用范围最广的词库。高层为补充区,随意开关,随时添加词料,使用稳定的词条定期审核后过滤至中层。
浙公网安备 33010602011771号