大规模中文文本处理中的自动切词和标注技术

   Internet网络通信技术和大容量存储技术的发展,加速了信息流通的速度,形成了大规模真实文本库。这些信息具有规模大、实时性强、内容分布广和格式灵活多样等特点,从而迫使人们考虑语言信息处理的新理论和新技术。传统的语言信息处理方法目前已发生了明显的变化。主要表现在:处理对象由少量例句到大规模的真实文本;处理方法由完全语法分析到部分语法分析;处理范围由典型领域到开放的实用领域等。
    中文信息处理是语言信息处理的一部分,包括汉字信息处理和汉语信息处理。近年来,在汉字信息处理取得长足进步的基础上,汉语信息处理也开展了一系列的探索性工作。由于汉语独有的许多难点,如没有词的界限标记、没有形态标记、词类划分和兼类情况复杂等,面对大规模中文文本的处理任务,作为中文信息处理基础工程的切词、词类标注和语义标注工作,无论是在理论、方法还是工具方面都面临着如何适应这些变革的问题。
     伴随着大规模真实文本语料库的出现,应运而生的语料库语言学(Corpus Linguisti cs)在80年代崭露头角。山西大学是国内较早建立大规模语料库并从事自然语言处理的单位之一。1988年受国家语委和国家教委委托,建立了容量为200万汉字的语料库,进行了现代汉语常用字表的统计。1991～1992年建立了包括新闻、经济、军事、体育、科技和科普读物等题材的100万汉字的现代汉语语料库,成功地用语料库方法进行了汉语切词和词类自动标注的研究。在上述两个大规模语料库的基础上,我们从中精选了部分语料进行了切词、词类标注的精加工,形成了10万汉字的精加工语料库。

1995年国家863智能接口评测小组主持的"现代汉语书面语自动切词与词类标注评测",其中所用的语料就取自该语料库。
    "九五"期间,我们在已有的经过粗加工的1000万字以上语料库的基础上建造了200万字的平衡语料库,目前正在进行精加工处理,已完成其中50万汉字语料的切词和词类标注的精加工以及部分段落语义标注试验,发现了很多深层次的问题。
一、研究需要引伸的自动切词技术
1.切词词表建造和未登录词识别
   从目前国内计算机界采用的切词技术及其切词结果来看,情况不容乐观。首先是《分词规范》公布后,尚无一套公认的权威性的切词词表可供使用。为此,1995年全国智能接口评测大纲规定,选取《现代汉语词典》和《汉语拼音正词法》中的词语作为评测参考。
   这实际上是一种临时措施,没有解决根本问题。《现代汉语词典》是国内和国际上公认的最具权威性的规范词典,1995年重版修订后,增加了9000多条反映新事物、新概念和科技新发展、社会新变化的新词语,如代沟、反思、特区、离休、信用卡、桑那浴、人工智能、基因工程等,同时也删去了一些过于陈旧的词语和过于专门的专科术语。作为一部推广普通话、促进汉语规范化服务的词典,它的水平是很高的,但作为切词用的词表,其词汇的收集和数量都不能适应语言信息处理的工程性需要,还需进行筛选和补充。从我们已处理过的几十万语料来看,还有数千个普通词语需要补充。其次,因为语言的生命力是由人们的使用决定的,它总是以一种动态的面貌展现在人们的面前。从动态的角度看,人们可以根据表达的需要不断地构造新词,这就使语言中词的数目永远是个开放集,任何表面完备的切词词表都不可能把语言中所有的词涵盖无遗。
如:唯美/倾向、唯智力/倾向、唯设备/倾向……,非智力/因素、非国有/资产、非生产性/投资……,其中,"非"、"唯"均为前缀,上述含这两个前缀而构成的词都是未登录词,也可看作是一种动态词。但是,我们应看到,汉语中的很多语素在活动能力、构词位置上具有灵活多变的特点,特别是其中有的语素既可以是能独立运用的成词语素,又能与别的语素
组合,作为构词语素或语缀。
   如"非"在上面几例中是前缀,记为"非1",但在"非严肃查处不可"、"这件事非老刘不能解决"中,"非"是一个连词,记为"非2"。因此,区分"非"在句中是前缀还是词,这是正确切词的关键,构词知识、句法知识、语义知识在此必不可少。我们还应看到,语言中的词虽然可以数目无限,但这些词的构造规则是有限的,这可以看成是语言的静态一面。这些静态知识就是我们动态词构词规则库的内容。
    另外,在自动切词过程中,专名识别也是一个难题。未被辨识出的中外人名、地名、机构组织名、商标名等是导致切词错误的重要原因之一。专名识别出现的错误可分为两种,一种是误检,把专名误作普通名词或其它词处理,而导致分词错误;另一种是错检,把非人名、地名等误分作人名、地名,而导致分词错误。
   目前,一些切词系统所采用的专名识别方法是建立人名、地名等专名库,然后再用机械匹配的方法进行处理。这种方法从根本上讲还是用静态词典来匹配动态语言材料,其实际结果总是不尽如人意。因此,必须从动态的角度研究专名辨识方法。
    以中国人名为例。1984年,国家语委和山西大学合作,利用1982年全国人口普查资料,对我国汉字姓氏人名用字进行了抽样统计。从北京、上海、辽宁、广东、福建、陕西、四川等七个地区(各抽取2.5万人)抽取人名共计174993个。这项成果具有覆盖面广、代表
性强、合理、科学等特点。其中共有姓氏729个,分布相对集中,王、陈、李、张、刘这五个大姓占32%,前114个姓占90%,前365个姓占99%。同时,从人名用字的统计来看,时代背景和区域性特色也十分明显。如单名增长趋势显著,在1982年人口普查的抽样调查中,新中
国成立前出生的总人数为68273个,单名人数占6.5%,1976年以后的总人数为13621个,单名占32.5%。又如人名用"红"字的,在新中国成立前占0.136%,而在1966～1976年期间占2.15%。人名用字的时代变化太明显了。
   这些翔实的姓名统计资料清楚地告诉我们,采用姓氏用字库、人名用字库以及上下文称谓等方法进行人名识别是一条可以试验的方法。目前,由于研究深度不够,试验结果还未能达到实用。
   多年的实践告诉我们,专名识别是一个很复杂的问题,不仅涉及字词的信息(如是否常做姓氏和人名),而且还涉及词语搭配的句法知识和语义知识等。
总之,自然语言具有无限丰富、不断发展和约定俗成的特点。汉语和其它自然语言一样,它的词汇部分永远是一个开放集,任何词表都不能做到将全部词汇收入。自动切词系统中由未登录词造成的切词错误远远超过歧义切分与字段引发的错误。因此,近年来这个问题已成为自动切词研究的焦点。目前,自动切词的各种算法设计和切词精度的提高,还
   有赖于从现代汉语词汇学的角度进行分析研究,如语素的构词能力、接尾词和接头词的特性、复合词的构成方式等,才能从根本上解决切词词表的建造和未登录词的辨识问题。
2.建造歧义切分的句法构词知识库,以提高切词精度
   歧义字段在中文文本中是普遍存在的,是自动切词中一个比较棘手的问题。近年来,国内开展了对歧义切分技术的研究,已研究出一些构词和语法语义知识,增强了切分歧义字段的能力,提高了切词的精度。但是,这些构词语法知识库库容小、规则有限,无法满足大规模真实文本中信息处理的高标准要求。当前,应首先在大规模真实语料中采集各种歧义现象的基础上,从语素构词、词的句法关系、词义搭配、短语结构等多个角度进行分析研究。
    目前,我们已从语料中收集整理了近万条歧义切分字段及其相应的句子,建立了歧义切分字段语料库,并从中发现,交集型歧义切分字段占歧义字段总数的85%以上,而其中又以二字词构成的歧义字段为多,占交集型歧义字段的90%以上。可见处理这些由二字词构成的交集型歧义切分字段是我们研制歧义切分技术的一个重点。基于以上事实,经过一年来的不断攻关,我们共归纳出几十条歧义字段切分的句法规则及上百条构词规则,并用上述规则进行切词试验,取得了较为满意的效果。如歧义切分字段库中所有由介词构成的歧义字段有上百条,而我们只给出两条句法规则就解决了这些字段的歧义问题。
规则P1:AJB为交集型歧义字段,若A为介词,则切分为A(介)/JB。如除/法律、与/共同、把/关系、为/人民等。
规则P2:AJB为交集型歧义字段,若B为介词,则切分为AJ/B(介)。如发现/在、没有/用、习惯/于、主动/向等。
我们还建立了助词、副词、连词、方位词、趋向动词、能愿动词、量词、形容词等的句法规则来解决歧义字段,同样具有以简驭繁的功效。
歧义字段切分时,词法知识同样是正确切分中必要的信息。如"己"、"民"、"界"、"阐"等都是不成词语素,由这些语素组成的歧义字段可以利用构词法的知识给出切分规则。下面例子中的歧义字段都能取得正确的切分结果。
拿/出/自己/的/心爱/的/东西。(不可能切成"出自/己")
到时/在/世界/上/展示/风采。(不可能切成"在世/界")
这/段/话/阐明/了/一/个/真理。(不可能切成"阐/明了")
五/乡/村民/办/起/了/小/水电。(不可能切成"乡村/民")
我们在探讨歧义字段切分技术时所建立的歧义切分句法和构词知识库,大大地增强了处理歧义字段的能力。
二、词类自动标注中应考虑的两项技术
1.词类标注应采取经验主义和理性主义相结合的方法
1992年国际机器翻译会议的主题即为"机器翻译中的经验主义和理性主义方法"。随着对大规模真实文本处理的日益关注,人们已普遍认识到基于语料库的分析方法(即经验主义方法)至少是对基于规则的分析方法(即理性主义方法)的一个重要补充。
    在国内词类自动标注算法中,关于采用基于大规模语料库的经验主义方法和基于规则的理性主义方法己有试验报道。我们采用了"成分似然性自动词类标注系统" (CLAWS)改进算法,选择10万汉字语料作为训练集(标记集有174个标记),建立了一个相邻标记的同现概率矩阵(174×174)和兼类词典(收词1500个,每个兼类词包括词类标记及出现概率)。进行自动标记时,先从输入文本中截取一个首词和尾词非兼类的有限长度的词串(称为SPAN),然后利用同现矩阵提供的数据来计算SPAN产生的每个可能标记的概率积,并选择概率积最大的标记串作为词类标记结果。
   试验结果表明,基于语料库统计的方法具有很好的一致性和较高的覆盖率,并且可以将一些不确定的知识定量化。但是,在这种方法中获取知识的机制与语言学研究中获取知识的机制完全不同,因而所获取的知识很难与现有的语言学成果相结合。同时,像CLAWS算
法的时间和空间复杂度都比较大,随着标记跨段长度的增加以及兼类词标记数目的增大,其实际运行效率将会降低。基于规则的理性主义方法可以将大量现成的语言学知识形式化,具有较强的概括性,便于引用最新研究成果。因为任何词类都有其内部的共性和区别于其它词类的个性。只要我们把词类的共性和它外部的个性特征结合起来,词的兼类问题是可能得到妥善解决的。比如:名词的语法个性在于它可以直接受名量词的修饰,可以受名词直接修饰,可以做"有"的宾语,可以与名词组成并列结构。如果某个词具备了上述特征,我们就可以判定它是名词。 (例如,主张、计划、建议可以是动词,但在下面的语法环境中,它们一定是名词,这是因为:·可以受名量词的直接修饰如五点主张、不少计划、许多建议。
·可以受名词的直接修饰如个人主张、教学计划、家长建议。
·可以做"有"的宾语如有主张、有计划、有建议。
·可以与名词组成并列结构如观点和主张、材料和计划、观点和建议。
   我们在对50万汉字语料进行词类标注中,根据词的语法功能这一标准判别兼类词,既具科学性又有可操作性,收到了较好的效果。但是,实践表明,基于规则的方法所描述的语言知识的颗粒度太大,难以处理复杂的、不规则的信息,特别是当规则数目增多时,很难使规则全面覆盖某个领域的各种语言现象。
   为此,我们正在把基于规则的方法和基于统计的方法结合起来进行试验,使语言知识选择引用和用统计方法建立的语言模型有机地结合起来,使之互相补充,相得益彰。预计这一试验将会取得更为满意的结果。
2.词类标注应同切词过程一体化进行
   人们分析和理解自然语言时,其特点和过程是什么样的呢?通过仔细观察和思考,我们不难发现,人脑处理自然语言的特点和过程是将切词和词类识别一体化进行,即边切词边进行词类或语义识别,二者是不可分离的两个方面。下面以处理兼类词"为"和由"为"构成歧义字段为例,说明切词和词类标注不可分离的性质。例 "他们以服务社会、报效祖国为人生的第一目标"。
理解这句话的关键是判别兼类词"为"的词性,并处理歧义切分字段"为人生"到底该切分为"为人/生"还是切分为"为/人生"。前者是词性判别,后者是词的切分。句法知识在理解这句话中首先起作用,当我们看/听到介词"以"时,我们首先查寻的是这个介词后面的第
一个动词,当兼类词"为"出现时,它的动词词性马上被确认,也就是说介词的词性同时被排除,因为汉语中"以...为..."常作为一种固定搭配使用。确定了"为"的词性,歧义切分字段"为人生"的正确分词结果"为/人生"也被随之确定下来,可见句法知识不仅解决了词性的确定,同时也解决了歧义的切分。词类判别和切词是同时进行而不可分离的。
   目前把切词和词类标注分离开将带来什么结果呢?还是以《分词规范》为例,它明确规定,"场、室、界、力"等字用在某个单位的末尾时,就要一律按"接尾词"单独切分,比如:运动/场、会议/室、新闻/界、生产/力等。因为切词的目的不是为切词而切词,而是要为进一步的句法分析和理解语言服务,那么,词性标注就成为下一步不可或缺的工作。但这时,上面的分词结果就出现了麻烦。"场、室、界、力"如果是词也只能是名词,可它们是词吗?如果是词,为什么它们从来都不能独立运用,单独成词,而只能以附加的成分出现在某些名词性成分之后?语言中真的有粘着的"名词"吗?答案都只能是否定的。这种把构词成分误作"分词单位"切分的做法造成的上述不能自圆其说的窘况,正是脱离词类标注单独切词的结果。
鉴于此,我们深感应将切词和词类标注作为理解和分析语言材料的两个不可分离的环节,进行一体化处理。这样做,才真正符合人处理语言和过程的特点,才无愧于"人工智能",由此而得出的结果才可能达到预期效果。
三、应加强汉语文本自动语义标注试验
   在中文信息处理中,词汇、句法和语义层面的分析研究都需要借助于词义特征。一词多义形成了词的多义现象,自动语义标注主要是解决词的多义问题。一词多义虽然是自然语言中的常见现象,但是在一定的上下文中一个词一般只能解释为一个义项。

所谓自动语义标注就是运用逻辑运算和推理机制,对出现在一定上下文中的词语语义的义项进行正确的判断,确定其正确的语义,并加以标注。多义词的排歧一直是一个老大难问题。
国内对于汉语文本自动语义标注的研究已经起步,并正在进行中。山西大学在汉语全文检索中进行了义项标注研究,并对《太原市地方志大事记》进行了义项标注试验。这份材料从公元前514年到1990年,分为10个历史阶段,包括了太原历史上的政治、经济、军事、文化、科技诸方面具有划时代意义的事件。全文共50万汉字语料,经义项标注后,主要解决了人名、地名、机构名等专有名词的同义现象,同时提出了普通词义项标注方法,包括同义词的确定和多义词的排歧。

posted @ 2014-09-01 15:39 潜龙9527 阅读(564) 评论(0) 收藏举报

刷新页面返回顶部

测试开发探秘

宽以济猛，猛以济宽，宽猛相济。http://blog.sina.com.cn/eagleking0318

大规模中文文本处理中的自动切词和标注技术

公告