对于切分歧义以及识别未登录词的随想--公布硕士论文最新进展四（2007.4.13)

我作的论文主要是信息检索用汉语分词算法研究以及实现汉语分词系统。
    最近几天主要工作及进展：
        浏览大量的期刊论文以及硕博士论文   80%
        对自适应汉语分词算法进行相关的改进 95%
        分词系统的整体设计                 90%
        硕士论文撰写                       60%

        总体进度                           70%

最近一段时间，主要忙于算法的改进，以及撰写论文。
在算法的细节上，增加了数量词的处理，以及增加了部分统计模型以及规则库。
我研究的自适应算法，在某种程度上是一种仿人的算法，可是仿人的过程中仍需要其他资源、知识的辅助。
词性以及统计模型对分词中识别歧义字段还是有很大帮助的，但是对于未登录词的识别却不能够达到稳定的状态，这还是可以归结于统计学中的大样本并不能对单个个体样本起作用。
虽然说歧义识别与未登录词识别仍然是一对共生体，一个矛盾体，可是寻求突破的点还是未登录词，现在输入法的词汇在线更新倒是给了我们一个灵感，就是我们对词表的不断更新维护，会使得未登录词识别大大改进，同时的歧义问题也会达到一个比较理想的稳定状态。
也许，在保证分词效率的同时，对词表的更新维护，以及对系统算法的一个迭代调整，也许是一个我们可赖以解决那对矛盾体的利器。
当然，一个稳定的分词系统，必须在很多细节上下很多功夫，这个问题的确是不可回避的。

posted on 2007-04-13 16:45 田野的羽毛阅读(418) 评论(2) 收藏举报