2012年3月21日

中文分词十年回顾结论 黄昌宁

摘要:十年来,尤其是2003 年Bakeoff 分词评测开展以来,中文分词技术获得了长足的进步。其主要表现为: (1) 通过“分词规范+ 词表+ 分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可比评测的基础;(2) 基于手工规则的分词方法在评测中不敌统计学习方法; (3) 在Bakeoff 数据上的估算表明,未登录词造成的分词精度失落至少比分词歧义大5 倍以上; (4) 因此能够大幅度提高未登录词识别性能的分词方法必将带动分词系统整体性能的提升。基于字标注的统计学习方法正是在这种背景下崭露头角的。Bakeoff 评测数据证明,这种基于字标注的分词系统优于以往的 阅读全文

posted @ 2012-03-21 19:33 _Clarence 阅读(171) 评论(0) 推荐(0) 编辑

导航

统计