WordNet
传统词典一般都是按字母顺序组织词条信息的,这样的词典在解决用词和选义问题上是有价值的。然而,它们有一个共同的缺陷,就是忽略了词典中同义信息的组织问题。
20世纪以来,语言学家和心理学家们开始从一个崭新的角度来探索现代语言学知识结构以及特定的词典结构,终于由普林斯顿大学(Princeton University)的认知科学实验室(Cognitive Science
Laboratory)的学者们研制成功了一个联机英语词汇检索系统—WordNet 3.1,它作为语言学本体库,同时又是一部语义词典,在自然语言处理研究方面应用非常广泛。
Wordnet是一个很有个性的词典。顾名思义,这个词典不是仅仅把单词以字母顺序排列,而且基于单词概念(或意义)并由此在单词之间建立了一个庞大的“单词的网络”,具体的解释请参考词典的官网。这个词典有意思的地方不在于它对单词有多么精确的解释,而在于它将诸多词汇的意义通过普通人更容易接受的方式表达出来,当然它也是一个开源并且免费项目,其中开放的程序接口可以让其它程序调用它的函数,从而使用到像文字内容处理,语言分析等领域。
WordNet与其他标准词典最显著的不同在于:它将词汇分成五个大类:名词、动词、形容词、副词和虚词。实际上,WordNet仅包含名词、动词、形容词和副词。虚词通常是作为语言句法成分的一部分,WordNet忽略了英语中较小的虚词集。
WordNet最具特色之处是根据词义而不是词形来组织词汇信息。可以说WordNet是一部语义词典。但是与按字母排列的语义词典以及按主题排列的语义词典都不同,它是按照词汇的矩阵模型组织的。同义词集合(synonymy set)可以看作是词形(word form)之间一种具有中心角色的语义关系。
Wordnet是一个词典。每个词语(word)可能有多个不同的语义,对应不同的sense。而每个不同的语义(sense)又可能对应多个词,如topic和subject在某些情况下是同义的,一个sense中的多个消除了多义性的词语叫做lemma。例如:“world”是一个word,它可能有多个sense,如下图显示“world”的名词形式包含8个sense。在第一个sense中,universe、existence、creation、cosmos和macrocosm都是lemma。Sense 1括号内的数字232表示“world”以sense 1在某外部语料中出现的次数。显然,“world”大多数时候以sense 1出现,很少以sense 7和sense 8出现。
目前,WordNet支持Windows的版本只有V2.1(注:发行于2005年3月)。而WordNet的3.0版发行于2006年12月,是针对于 Unix/Linux/Solaris等操作系统的。WordNet的3.1版本目前只能在线访问,其地址为:http://wordnetweb.princeton.edu/perl/webwn。此外,好心的开发者还提供了一个Prolog版本的3.0。
到WordNet官网下载并安装后,启动程序,比如输入“world”其界面如下:

在菜单栏下多了两个按钮noun和adjective,这表明单词“world”存在这两种词性:名词和形容词。
单击noun按钮可以看到WordNet里名词组织存在的关系如下:
- Synonyms 同义词
- Coordinate 等价
- hypernyms 下位关系
- hyponyms 上位关系
- holonyms 整体
- meronym 部分

比如点击Synonyms选项,则可以得到其相关的关系的查询词“world”的同义词集合synset,如下图:

单击WordNet菜单中 options-->set advanced search options...,则出现如下界面:

其中,可以分别设置lexical file information、synset location in database file、sense number的选项。每个选择里面都有三个子选项,其含义如下:
- Don't show:不用解释了就是不显示了
- Show with searches:是指在具体搜索时显示。比如,单击noun的上位关系则会显示。
- Show with searches and overview:不加任何条件的搜索,输入词汇后直接按回车就是overview。
下面的说明是指设置Show with searches,并输入“world”的截图介绍。
- lexical file information:指的是the lexicographer file that the synset comes from。具体到下面截图,就是里面的<noun.object> <noun.cognition>等.....,详细内容请参考文件C:\Program Files\WordNet\2.1\doc\html\lexnames.5WN.html
- synset location in database file:指的是下面截图里的{}里的数字是sense在数据文件里的偏移位置,具体参考帮助文件C:\Program Files\WordNet\2.1\doc\html\wn.1WN.html
- sense number:是指同义词集的同义词#号后面的数字,是WordNet设置的数字具体参考wn.1WN.html

WordNet也支持命令行操作,其帮助文档有详细的说明。
注:另外,斯坦福大学人工智能实验室也有一个WordNet版本,其地址链接为:http://ai.stanford.edu/~rion/swn/,但是其对应的开发工具好像比较少。
参考文献:
- WordNet官网:http://wordnet.princeton.edu/
- WordNet百科:http://baike.baidu.com/view/1346069.htm
- WordNet介绍(非常详细):http://blog.csdn.net/zhaoyang17/article/details/2139651
- WordNet的发展概况:http://www.cnblogs.com/hanpu0725/archive/2010/08/09/1796052.html
浙公网安备 33010602011771号