20210510学习笔记-中文信息处理发展报告(2016)
第一章:词法和句法分析研究进展、现状及趋势
1.1 自然语言处理中的自然语言句子级分析技术,可以大致分为词法分析、句法分析、语义分析三个层面;
1.2 第一层面的词法分析,包含“汉语分词”和“词性标注”两部分,是将输入句子从字序列转化为词和词性序列,句法分析将输入句子从词序列形式转化为树状结构,从而刻画句子的词法和句法结构;
1.3 第二层面的句法分析,包含“短语结构句法分析”(介于之间)、“依存句法分析”(浅层句法分析,简单)、“深层文法句法分析”(复杂);
1.4 因为机器学习模型复杂度、效率的考虑,自然语言处理系统通常采用级联的方式,即分词、词性标注、句法分析、语义分析分别训练模型,实际使用时,给定输入句子,逐一使用各个模块进行分析,最终得到所有结果。近年来,随着研究工作的深入,研究者们提出了很多有效的联合模型,将多个任务联合学习和解码,如分词词性联合、词性句法联合、分词词性句法联合、句法语义联合等,然而联合模型的复杂度更高,速度也更慢;
1.5 汉语的分词是开放、动态的,如外来语、新词、热词不断出现,不可能用一部静态词典包含所有的词,所以用来描述生词和构词法的模型是非常重要的;
1.6 分词歧义问题:分词歧义是指在一个句子中,一个字串可以有不同的切分方法。例如,“乒乓球拍卖完了”,可以切分为“乒乓/球拍/卖/完/了”, 也可以切分为“乒乓球/拍卖/完/了”;
1.7 分词开源软件:中科院计算所的ICTLAS分词系统、哈工大语言技术平台LTP、清华大学自然语言处理工具包、海量云分词等;
1.8 未登录词和新词:大部分未登录词是专有名词,包括人名、地名、机构名等,未登录词的识别错误对分词效果有很大的影响;每天还会产生超过800个新的中文词。挑战巨大;
1.9 输入的句子中不可避免会存在一些错别字或者刻意的谐音词(如“香菇” ->“想哭”;“蓝瘦” ->“难受”;“蓝菇” ->“难过”等等) ;
1.10 给定一个切好词的句子,词性标注的目的是为每一个词赋予一个类别,这个类别称为词性标记,比如名词、动词、形容词等;
1.11 宾州大学汉语树库( Penn Chinese Treebank,简称CTB),每个段落标注为一棵连接依存树,共有效标注 2342 个篇章(段落);
浙公网安备 33010602011771号