俞士汶

关键词:自然语言理解、自然语言处理、语法研究、语法信息词典

一. 自然语言理解的研究对象

    从计算机科学特别是从人工智能的观点看,自然语言理解的任务是建立一种计算机模型,这种计算机模型能够给出象人那样理解自然语言(即人们日常使用的汉语、英语等)的结果。显然,有必要给“理解”下一个本质性的定义。然而,这是极其困难的。说话人可以用同一句话表达不同的意思。反过来,对于同一句话,不同的听话人也会有不同的反应。人与人用自然语言(包括口头的与书面的)进行交流并没有困难,这是因为交流是在一定的环境中进行的,交流双方的知识背景一定有共同的部分,且交流的目的大体上也有了预设。 现在的计算机的智能还远远没有达到能够象人一样理解自然语言的水平,而且在可预见的将来也达不到这样的水平。因此,关于计算机对自然语言的理解一般是从实用的角度进行评判的。 如果计算机实现了(1)人机会话,或(2)机器翻译,或(3)自动文摘等语言信息处理功能,则认为计算机具备了自然语言理解的能力。 由于这些实用的系统,除了理解输入给计算机的文章或话语之外,还需要具备生成语言的功能, 因此,在计算机科学中,除了“自然语言理解”,也常常使用“自然语言处理”这个术语[1,2]。自然语言理解一直是人工智能学科内引人注目而又困难重重的一个核心研究课题。

    当然要让机器真正理解自然语言,首先必须弄清楚人是怎样理解自然语言的,是怎样学会外国语的,特别是,儿童是如何学会母语的。这些问题涉及到人类智能的本质的研究。因为人类的语言活动是人类极重要的智力活动之一。对这类重大问题的探索需要多学科协作攻关。除了计算机科学和语言学之外,吸取认知科学、心理学、脑科学、哲学等学科的成果也是必不可少的[3,4]。

 

二. 当代自然语言处理的基本模型

    机器翻译系统是典型的自然语言处理系统。当代机器翻译系统的模型可用图1表示,从图1可以了解到,机器翻译系统的基本原理乃是要素合成原理。首先将原文的句子分解成基本构成要素(词,惯用语等),这样才可以查词典,才好运用语法规则找出句子的结构,这就是句法分析(包括词法分析),并通过语义分析及语境分析排除不适当的歧义,从而形成原文的机器内部表示,于是可在结构的层次上进行转换,得到译文句子的结构,并选择适当的译词,以后再进行词序调整、虚词增删及形态变化,最终得到译文的表层句子。

    这样的机器翻译系统除了一般的计算机系统都有的硬件和软件(分析与生成程序)外,还有一个特别的组成部分,即语言知识库,包括静态的词典、语法规则库等,也包括动态的上下文相关信息。而且,在机器翻译系统中,语言技术(包括语言知识的归纳、表示与运用)是居于核心地位的技术。同硬件、软件相比较,目前语言技术发展尚不够成熟,成为机器翻译开发过程中必须攻克的难关。

 

 

      原文输入                                                   译文输出

                                  静态知识库

 

         句法分析                  词    典                  句子生成

                                   语法规则

                                   常    识

            语义分析                                      译词选择

                                  动态知识库

 

               语境分析           上下文信息          结构生成

 

 

 

 

                                内部表示/转换

 

 

图1 机器翻译系统基本模型

 

    不难理解,词典与语法规则库中需要注入大量的语言知识,上下文相关信息的提取当然也要依靠语言知识的运用。更重要的,是要在适当的语法理论指导下,找出一种合理的形式系统。这种形式系统不仅可以用来表达不同层次的语言知识,而且需要保证自然语言句子的表层线性序列与内部结构的表示之间以及不同语言的内部表示之间具有可计算性,也就是彼此之间能通过一系列规则或过程进行转换。很显然,自然语言理解研究工作的开展使语法研究有了新的目标、新的动力。

 

三. 语法分析在自然语言处理中的地位

    除了少数实验模型,大多数自然语言处理系统都包含句法分析这个步骤,狭义的语法分析就是指句法分析,广义的语法分析则包括句法分析、语义分析和语境分析。

    在自然语言理解的领域中,越来越多的论著强调语义分析的重要性,这是容易理解的。在汉语中,很容易举出例子:

          猴子吃香蕉

          学生吃食堂

          老乡吃大碗

对于这些例子,仅仅在句法的层次上分析出“吃”是动词,“香蕉、食堂、大碗”是名词,且动词与名词之间是述宾关系,并不能妥善地解决机器理解与翻译的问题,必须进行语义分析,系统要在词典与常识库中为分析程序提供语义信息,如给“吃”附以“动物的一种行为”,在句子中需有“施事”与“受事”,只有食品类的名词才可以充当其“受事”,还要给“苹果、食堂、大碗”分别附以“食品、处所、器具”的语义标记。

    同样,也有充分的理由认为语境分析是不可缺少的,例如要将“小张打针去了”这句汉语译成英语或日语,至少要从上下文中弄清楚小张是病人还是护士。 系统要有一个动态的知识库存放分析语境所得到的信息。分析程序参照这个动态知识库,说明只有突破一个句子的界限,才可能正确地理解每一个句子。

    人们大致上采用两种方式使用自然语言进行交流[5]。一种是“意合法”,发话者的几个关键的词,就可以让听话者捕捉到有关的信息,这当然绝对依赖于当时的环境。另一种是“结构法”,即人们正常说的、写的句子虽然表面上看来只是音节或词的线性序列,但实际上是有一定的结构的。在这两种方式中“结构法”是基本的。目前计算机能处理的也就是这样的有合法结构的句子,其中心任务就是通过句法分析、语义分析和语境分析得到句子结构的形式化的机内表示。句法分析、语义分析与语境分析,这三者之间的关系应当是以句法分析为主,辅以必要的语义分析和语境分析,以消除歧义结构。句法分析固然解决不了关于理解的全部问题,但是反映客观世界的语义系统即使能建立起来,也会十分庞杂,语境分析更是没有边界,很难形式化,因而也不宜对语义分析与语境分析期望过高,正确的策略应是将三者有机地结合起来。 这也许是最有效且最经济的原则。汉语的形态虽然不发达,但反映汉语结构规律的形式系统还是存在的 ,只是研究得还不充分,对自然语言处理还有很多潜力可以发挥。因而,在以汉语为对象的自然语言处理研究中句法分析仍然处于举足轻重的地位,当前应该是研究的重点,至少应是重点之一。