中文分词十年回顾结论 黄昌宁

十年来,尤其是2003 年Bakeoff 分词评测开展以来,中文分词技术获得了长足的进步。其主要表现为: (1) 通过“分词规范+ 词表+ 分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可比评测的基础;(2) 基于手工规则的分词方法在评测中不敌统计学习方法; (3) 在Bakeoff 数据上的估算表明,未登录词造成的分词精度失落至少比分词歧义大5 倍以上; (4) 因此能够大幅度提高未登录词识别性能的分词方法必将带动分词系统整体性能的提升。基于字标注的统计学习方法正是在这种背景下崭露头角的。Bakeoff 评测数据证明,这种基于字标注的分词系统优于以往的基于词(或词典) 的分词系统。回顾这十年来分词技术的进步,有什么是可供其他自然语言处理技术借鉴的经验呢? 笔者认为,由于自然语言的模糊性和复杂性,一方面,对于任何进入计算的语言对象都应当为其寻求一种可计算的定义;另一方面,对于推动任何一种应用技术的进步来说,公开、可比的评测都是至关重要的。语言对象的定义和有关这种对象的自动评测是紧密关联的,没有可计算的定义,也就不会有可信的评测。

posted on 2012-03-21 19:33  _Clarence  阅读(171)  评论(0编辑  收藏

导航

统计