paip.提升中文分词准确度---新词识别

paip.提升中文分词准确度---新词识别


近来,中文每年大概出现800---1仟个新的词..
60%的分词错误是由新词导致的


作者Attilax  艾龙,  EMAIL:1466519819@qq.com 
来源:attilax的专栏
地址:http://blog.csdn.net/attilax 


新词的概念 
 目前,在中文分词领域出现了新词(New Words)和未登录词(Unknown Words)两种概念。很多研究者并没有对未登录词和新词加以区别,认为它们是一样的[12][13]。通常,未登录词被定义为未在词典中出现的词[3][4][5]。(Chen,1997)通过对一个规模为300万词汇的语料统计,将未登录词分为五种类别,包括 
 (a) 缩略词(abbreviation),如“中油”、“日韩”; 
 (b) 专有名词(Proper names),主要包括人名、地名、机构名。如“张三”、“北京”、“微软”;
  (c) 派生词(derived words),主要指含有后缀词素的词,如“电脑化”; 
 (d) 复合词(compounds),由动词或名词等组合而成,如“获允”、“搜寻法”、“电脑桌”; 
 (e) 数字类复合词(numeric type compounds),即组成成分中含有数字,包括时间、日期、电话号码、地址、数字等,如“2005年”、“三千”。


新词的识别方法.
1.基与规则::::通过构词,前缀,后缀(词边界),词形,编写规则
....化,....族
大概准确录90%
2.基与统计方法.
俩个/三个 相邻单字 的频率....大概准确录88%


3.基与搜索引擎
这个准确度非常高.. 几乎95%了...
bg str feodg se hetu,auto pop ...yaos chwlai ,shg word...beir, bsd ..




4.单字构词能力以及频率.
词素级的判断...


5.基与sns。。类似于智能+人工
这个也能是准确度非常高,近乎100% ...因为是人工反馈。。。




 


/////////垃圾串过滤
能预先界定垃圾串词库..到时过滤..
垃圾串词库的建立也能使用搜索引擎增强判断..








参考:
中文新词识别技术综述_免费下载_百度文库.htm
【论文】Internet中的新词识别_百度文库.htm
【论文】基于词内部模式的新词识别_百度文库.htm
关于新词识别的 - 豆丁网.htm  (20个后缀)
【论文】不限领域的中文新词的识别研究_百度文库.htm
新词发现综述_免费下载_百度文库.htm
posted @ 2013-11-25 14:00  attilaxAti  阅读(367)  评论(0编辑  收藏  举报