代码改变世界

详细介绍:神经网络之使用同义词词典表示单词语义

2026-01-25 10:03  tlnshuju  阅读(2)  评论(0)    收藏  举报

一、基本概念:同义词词典与语义表达

1. 同义词词典(Thesaurus)

同义词词典是一个词汇语义网络(lexical semantic network),它将词汇按照语义相似关系(如“同义”“反义”“上下位”“部分-整体”)组织起来。
常见的例子:

  • 英文:WordNet
  • 中文:知网(HowNet)同义词词林(Tongyici Cilin)

这些资源不仅包含词与词的同义关系,还提供语义层次结构(taxonomy)和语义标签(semantic features)。


二、基于同义词词典的语义表示思想

基于同义词词典的方法属于符号学派的语义表示方法。核心思想是:

一个词的语义可以通过它在同义词网络中的位置与关系来表示。

换句话说,如果两个词在词典中出现的位置接近(例如位于同一类目或层级结构相邻),那么它们的语义也相似。


三、语义表示的核心步骤

步骤1:从词典中提取词的语义类(Sense Classes)

同义词词典将词按意义划分为若干“义项类”(synset 或 concept class)。
例如:

run 在 WordNet 中可能有多个 synset:
① run (move fast by foot)
② run (operate)
③ run (flow)
每个 synset 都代表一个具体语义。

对于中文:

“银行”在《同义词词林》中可属于:
① 金融机构类(存贷业务)
② 河岸类(自然实体)

因此,首先需要确定单词属于哪个语义类。


步骤2:构建语义向量或特征表示

一旦获得该词在词典中的义项,就可以将它表示为以下几种形式:

(1)One-hot 类别向量

若词典共有 N 个语义类,则每个词表示为一个 N 维向量,某一维为1表示该词属于此类。

  • 优点:简单明了
  • 缺点:维度高,不反映层次或距离
(2)层级路径表示(Hierarchical Path Encoding)

同义词词典通常有层级,如:

实体 → 生物 → 动物 → 鸟 → 麻雀

一个词的语义可用路径编码:

entity > living_thing > animal > bird > sparrow

两个词语义相似度可用路径相似度计算(例如最短路径距离)。

(3)语义特征向量(Semantic Feature Vector)

利用词典中的各种关系(同义、反义、上下位、关联)统计特征,例如:

  • 与多少个词同义?
  • 位于层级的深度是多少?
  • 与哪些语义域(semantic domain)相关?

最终可构成一个语义特征向量表示单词。


步骤3:计算语义相似度(Semantic Similarity)

有了词在词典中的语义表示,就可以定义相似度:
常见计算方法包括:

方法思想示例
路径长度法(Path-based)根据两词在层级结构中的最短路径长度sim = 1 / (1 + distance)
信息量法(Information Content, IC)利用语义类出现频率定义信息量sim = IC(common ancestor)
结构相似法(Structural Similarity)同时考虑层次深度与关系类型sim = α·path + β·depth

四、具体例子

示例1(英文,WordNet)

词:dogcat

  • WordNet层级:

    entity > living thing > animal > vertebrate > mammal > carnivore > feline/canine
  • 最短路径长度:2(dog → carnivore → cat)

  • 相似度(路径法):sim = 1 / (1 + 2) = 0.33

  • 信息量法可能更高,因为它们共享的上位类“carnivore”较具体。

结果解释:

dog 和 cat 在语义空间中相近,因为它们共享上位类“carnivore”。


示例2(中文,《同义词词林》)

词:老师教师

在《同义词词林》中,这两个词同属类别:

人类—职业—教育工作者类

→ 完全属于同一义项,语义相似度 = 1。

而:
老师学生

  • 虽然在“教育”领域有关系,但分类层次不同(一个是“教育者”,一个是“受教育者”)
  • 因此语义相似度较低,但**语义关联度(relatedness)**较高。

示例3(中文词义消歧)

句子:

“他去银行取钱。”

“银行”有两个可能义项:

  1. 金融机构
  2. 河的岸边

通过上下文“取钱”,词典告诉我们“取钱”与“金融活动”同属“经济类”,因此选择义项1。


五、方法的优缺点

优点缺点
可解释性强(基于人工语义结构)依赖人工构建词典,覆盖面有限
不需要大规模语料语义粒度固定,难以捕捉细微差异
适合语义相似度计算与词义消歧难以表示语义组合、上下文依赖

六、与分布式语义(词向量)的关系

方面同义词词典法分布式语义法(word2vec等)
数据来源人工语义结构大规模语料统计
可解释性
灵活性
结合方式可融合(词典+语料)——

如今常用混合方法(hybrid approach)
先用同义词词典确定语义层次,再用语料训练词向量进行微调。


七、小结

步骤内容
1️⃣获取词的义项与层次位置
2️⃣表示为语义向量或路径编码
3️⃣利用层级或信息量计算语义相似度
4️⃣应用于词义消歧、相似度计算、文本理解

✅ 简要总结示例:

用同义词词典表示语义 = 用“词义类别 + 层级结构 + 关系特征”来刻画词的意义。