四. 面向自然语言处理的语法研究

    应该说,凡是汉语语法研究的成果对机器理解汉语都是有用的,似乎没必要区分面向人的研究还是面向机器的研究。只不过当前的计算机的智力比人类差得远,要教会这样一个“傻瓜”理解自然语言,既需要提出一个合理的可以实现的培养目标,又需要有一套特别设计的教材与教学法,在这个意义上讲,面向机器的语法研究可以看作是对计算机的语言教学研究[6]。

 

1. 适合于分析与生成的语法理论

    自然语言处理的中心任务就是要得到既作为分析的结果又作为生成的起源的机内中间表示形式。计算语言学家为此进行了艰苦的探索,建立了各种模型[1]。下面举例说明。 设计算机系统中存储了一部稍加扩充的上下文无关语法的公式:

              S→NP+VP

               NP→n

               NP→r

               NP→MP+n

               MP→m+q

               VP→v(双宾=“双”)+NP+NP

这里S代表句子,NP,VP,MP分别代表名词短语,动词短语,数量短语,n,r,m,q,v分别代表名词,代词,数词,量词,动词。动词v后面多了一个括号,括号内的“双宾”是一个语法属性,“双”是属性的值。若括号中的等式成立,表示该动词是双宾语动词。同时,系统中还存放一部电子词典,这部词典除了登记汉语的词条外,还要给每个词赋予一个分类代码,对于动词还要附加属性,以指明该动词是否为双宾语动词。利用这部语法和这部词典,计算机可以从内部生成如下合乎语法的汉语句子

               老师教我们一支歌

也可以分析从外部输入的这样的词序列,判断它是合乎语法的。 所谓“合乎语法”指的是可以用一颗“树”作为它的结构的内部表示(图2):

 

                            S

 

                NP                    VP

 

                 n         v          NP           NP

                      (双宾=“双”)

                                       r       MP       n

 

                                             m   q

 

               老师        教        我们    一 支     歌

 

                       图2 句子结构的“树”表示

 

得到了这样一棵树,计算机对汉语的句型就有了相当好的把握,为理解汉语奠定了一个重要的基础。机器翻译的核心技术之一就是在两种不同语言的内部结构之间实现转换。当把这个汉语句型结构变换到对应的英语结构后,与分析过程相反,就可以从对应英语句型结构生成英语的表层句子,至于词语的对译可借助机器词典解决。

    尽管基于上下文无关语法的各种计算模型在自然语言处理中得到了广泛的运用。这类语法的局限性也是明显的。不考虑语气,以下几句话的意思基本上是一样的。

          他已经解决了这个问题。

          这个问题他已经解决了。

          他已经把这个问题解决了。

          这个问题已经被他解决了。

可以预测到,完全使用上下文无关的语法公式来描述自然语言,其数量是难以控制的,而且使用句法树也无法表达以下句子的逻辑语义。

          资料已经看完了。

          他写毛笔。

    一种语义分析方法的基本思想是将句子看成是由居中心的谓词性概念及处于外围的“角色”组成的框架。与每一个谓词性概念相配合的角色是一定的,这样的角色由具有某种语义的体词性成分(如名词)来充当。名词的语义则由语义分类和语义属性进行描述。为了实现语义分析,系统中需预置各个动词(也可以是某一类动词)的抽象的框架结构,如“看”、“写”的抽象的框架结构分别为

    [ 中心1: “看”

       角色 [ 施事: (动物)

              受事: (具体物) ] ]

    [ 中心2: “写”

       角色 [ 施事: (人类)

              受事: (作品)

              工具: (器具) ] ]

计算机程序参照这些框架结构和语义词典,分析上面最后两个句子,可以得到具体的结构:

    [ 中心1: “看”

       角色 [ 施事: “ ”

              受事: “资料” ] ]

       时态 [ 完成态 ] ]

    [ 中心2: “写”

       角色 [ 施事: “他”

              受事: “ ”

              工具: “毛笔” ] ]

这也是自然语言句子的一种机内表示形式。 不同语言的语义框架之间同样可以进行转换。不过,要实际建造一个完整的语义系统,实在是一项浩大的工程。另外语义分析与句法分析也不宜脱节。因此,建立和完善适合自然语言分析与生成的语法理论依然是一个探索中的课题。

    对于汉语来说,这个任务则更为艰巨。在比较窄的应用领域或实用型系统 (如信息库的检索界面、机器翻译系统)中,从事汉语信息处理的研究者也曾构造了各种类型的计算语法模型。不过,可以看出这些模型几乎都是借用国外已有的语法理论(如上下文无关语法,扩充转移网络,语义语法,格语法,语义网络,广义短语结构语法,词汇功能语法,依存语法等等) 解释一部分汉语的语法现象, 应该说真正立足于汉语语言事实的形式化的语法理论框架至今尚未建立起来,众多的学者都在期望着这个课题的突破性进展。