2. 语法电子词典

    不论语法理论采用什么样的模型,反映汉语词语的语法功能实际的电子词典总是必不可少的。这种电子词典不是供人使用的,而是供计算机使用的,因此它必须具有规格化、形式化、代码化的特征。

    这种电子词典包含的词语至少要数以万计,应当包含词语的句法信息、语义信息以及语用信息。目前采用适当方式,尽快地将语言学家的知识吸收到计算机系统中来是可取的开发策略。北大开发现代汉语语法电子词典已经走过六七个年头,已经积累了丰硕的成果[7]。在朱德熙先生语法理论的指导下,北大初步建立了信息处理用现代汉语词语分类体系。语法电子词典采用关系数据库技术,分类对每个词的句法属性进行了详细的描述。以动词为例,语法词典包含每个动词的句法属性约100项左右。这并没有穷尽。 当句法分析程序需要用到动词自主与非自主的区别及动词的过程性特征时,电子词典还可以补充。 这种动态性使语法电子词典的水平与语法研究的进展得以保持同步。

    目前北大的工作局限在句法信息的范围之内。北京语言学院与河南财经学院正在合作开发事物类、性状类、运动类词语的语义信息词典[8,9]。 语法词典与语义词典是在同一个总体方案内进行的,是互相衔接的,这两部词典将为中文信息处理提供一个平台。

    词汇主义已成为当今语言学研究的倾向之一,在整个语法理论中词库的地位已变得越来越重要了[10]。为了充分描述不同语言结构之间的差异与多样性,研究者不再走增加句法规则的路子,而转向将规则归纳为少量的一般化原则,同时将词库作为语法的一个重要的有机组成部分,词库中为每个词项所附加的信息需同语法规则相结合,这样才可以实现由词项驱动规则,词典在语句分析与语句生成中将发挥更大的作用。反映在应用领域,机器翻译也采用了词专家系统的技术[10]。电子词典已成为自然语言处理实用系统开发的焦点,尚有大量的工作等待语言学家去做。

 

3. 汉语短语结构体系及形式化描述

    朱德熙先生关于汉语是以词组(即短语)为本的论点已得到广泛的赞同。从 4.1所举的几个例子可以看出,尽管由于语序的变化及虚词的取舍,汉语句子千变万化,但短语结构却是相对稳定的。在建立汉语句子分析与生成的语法模型的目标确立之后,又有了语法电子词典的坚实基础,汉语短语结构的研究可以说是到达彼岸的桥和船。

    由于这里的研究是面向计算机的,形式化的描述当然是必要的,但绝不仅仅是形式化问题。很多问题也是语言学需要深入研究的。例如,对学汉语的人说“动词后接名词可以组成述宾短语或定中短语,偶而也可构成主谓短语”也许就够了。但计算机无法运用如此高度概括的结论,需要更明确地指出哪个子类或具有什么属性的动词和哪个子类或具有什么属性的名词能构成什么样的短语,这个短语的特性如何,它继承了构成成分的哪些属性,丢失了哪些属性,又派生出了哪些属性[12]。

    不仅需要研究短语的静态结构与属性,更需要研究短语的动态特性,即短语在句子中所起的作用。一般说,句法分析包括自动切词、确定词性、组合短语、决定句型等步骤。这些步骤可以相互独立地进行。但为了进一步提高分析的精度,有必要有机地融合这些步骤。因为这些过程都会碰到一个共同的问题,即短语结构歧义或短语的边界问题。象“这样的人才能出众”这样一串汉字可以有如下不同的组合

          这样 的 人 才能 出众

          这样 的 人才 能 出众

          这样 的 人 才 能 出众

显然要把面向计算机程序的短语动态特性的规律表述清楚,还是需要狠下功夫的, 计算机系统如饥似渴地需要吸取语言学家的知识。面向自然语言处理的现代汉语短语结构的体系、类型、功用与特性的研究是一个重大课题。

 

4. 未定义词的处理与合成词的构造

    尽管电子词典是自然语言处理的基础,但是不论词典的规模多大,真实文本中总会出现一些词典中未登录的词或者词典中虽有其词形(汉字相同)但词性却不合适,这些都属于未定义词。例如,专有名称是未定义词。有些词,人看来是很平常的,如“海上,前院,阿叔,可读性”等,也可能是计算机系统的未定义词。未定义词是语句分析的一大障碍。有些未定义词,如人名、地名,不必研究其内部构造,只能从前后关联的某些特征词,如:主任,先生,小姐,县,山,河等进行猜测。另一些未定义词,如新出现的或临时使用的合成词,简称略语等,识别起来则更困难。 计算机程序当碰到未定义词时,总是把它们分割成单个的汉字,未定义词的处理的首要目的就在于把单字重新组合成词并确定其词性。显然,要解决好计算机系统内未定义词处理的问题,需要语言学家们加强合成词构成规律及词间关系的研究,因为这是解决这个问题的途径。

    以上列举的一些课题都是面向自然语言理解的。这些研究的最终目标是要解决宏观的、大范围的、基本的问题。语法研究的对象、方法与手段极需要创新。当代计算机科学技术已为语言研究提供了强有力的工具,建设大规模的语料库已有了现实的可能性。 语料库建设的本身也包含了大量的语法研究课题,并且同自然语言分析与生成的研究是相辅相成的。 在面向自然语言处理的语法研究这个领域中,有着大片的待开发的土地,付出一份辛劳就一定会有一份收获。