详细介绍:神经网络之使用同义词词典表示单词语义
2026-01-25 10:03 tlnshuju 阅读(2) 评论(0) 收藏 举报一、基本概念:同义词词典与语义表达
1. 同义词词典(Thesaurus)
同义词词典是一个词汇语义网络(lexical semantic network),它将词汇按照语义相似关系(如“同义”“反义”“上下位”“部分-整体”)组织起来。
常见的例子:
- 英文:WordNet
- 中文:知网(HowNet)、同义词词林(Tongyici Cilin)
这些资源不仅包含词与词的同义关系,还提供语义层次结构(taxonomy)和语义标签(semantic features)。
二、基于同义词词典的语义表示思想
基于同义词词典的方法属于符号学派的语义表示方法。核心思想是:
一个词的语义可以通过它在同义词网络中的位置与关系来表示。
换句话说,如果两个词在词典中出现的位置接近(例如位于同一类目或层级结构相邻),那么它们的语义也相似。
三、语义表示的核心步骤
步骤1:从词典中提取词的语义类(Sense Classes)
同义词词典将词按意义划分为若干“义项类”(synset 或 concept class)。
例如:
run 在 WordNet 中可能有多个 synset:
① run (move fast by foot)
② run (operate)
③ run (flow)
每个 synset 都代表一个具体语义。
对于中文:
“银行”在《同义词词林》中可属于:
① 金融机构类(存贷业务)
② 河岸类(自然实体)
因此,首先需要确定单词属于哪个语义类。
步骤2:构建语义向量或特征表示
一旦获得该词在词典中的义项,就可以将它表示为以下几种形式:
(1)One-hot 类别向量
若词典共有 N 个语义类,则每个词表示为一个 N 维向量,某一维为1表示该词属于此类。
- 优点:简单明了
- 缺点:维度高,不反映层次或距离
(2)层级路径表示(Hierarchical Path Encoding)
同义词词典通常有层级,如:
实体 → 生物 → 动物 → 鸟 → 麻雀
一个词的语义可用路径编码:
entity > living_thing > animal > bird > sparrow
两个词语义相似度可用路径相似度计算(例如最短路径距离)。
(3)语义特征向量(Semantic Feature Vector)
利用词典中的各种关系(同义、反义、上下位、关联)统计特征,例如:
- 与多少个词同义?
- 位于层级的深度是多少?
- 与哪些语义域(semantic domain)相关?
最终可构成一个语义特征向量表示单词。
步骤3:计算语义相似度(Semantic Similarity)
有了词在词典中的语义表示,就可以定义相似度:
常见计算方法包括:
| 方法 | 思想 | 示例 |
|---|---|---|
| 路径长度法(Path-based) | 根据两词在层级结构中的最短路径长度 | sim = 1 / (1 + distance) |
| 信息量法(Information Content, IC) | 利用语义类出现频率定义信息量 | sim = IC(common ancestor) |
| 结构相似法(Structural Similarity) | 同时考虑层次深度与关系类型 | sim = α·path + β·depth |
四、具体例子
示例1(英文,WordNet)
词:dog 与 cat
WordNet层级:
entity > living thing > animal > vertebrate > mammal > carnivore > feline/canine最短路径长度:2(dog → carnivore → cat)
相似度(路径法):sim = 1 / (1 + 2) = 0.33
信息量法可能更高,因为它们共享的上位类“carnivore”较具体。
结果解释:
dog 和 cat 在语义空间中相近,因为它们共享上位类“carnivore”。
示例2(中文,《同义词词林》)
词:老师 与 教师
在《同义词词林》中,这两个词同属类别:
人类—职业—教育工作者类
→ 完全属于同一义项,语义相似度 = 1。
而:
老师 与 学生:
- 虽然在“教育”领域有关系,但分类层次不同(一个是“教育者”,一个是“受教育者”)
- 因此语义相似度较低,但**语义关联度(relatedness)**较高。
示例3(中文词义消歧)
句子:
“他去银行取钱。”
“银行”有两个可能义项:
- 金融机构
- 河的岸边
通过上下文“取钱”,词典告诉我们“取钱”与“金融活动”同属“经济类”,因此选择义项1。
五、方法的优缺点
| 优点 | 缺点 |
|---|---|
| 可解释性强(基于人工语义结构) | 依赖人工构建词典,覆盖面有限 |
| 不需要大规模语料 | 语义粒度固定,难以捕捉细微差异 |
| 适合语义相似度计算与词义消歧 | 难以表示语义组合、上下文依赖 |
六、与分布式语义(词向量)的关系
| 方面 | 同义词词典法 | 分布式语义法(word2vec等) |
|---|---|---|
| 数据来源 | 人工语义结构 | 大规模语料统计 |
| 可解释性 | 强 | 弱 |
| 灵活性 | 低 | 高 |
| 结合方式 | 可融合(词典+语料) | —— |
如今常用混合方法(hybrid approach):
先用同义词词典确定语义层次,再用语料训练词向量进行微调。
七、小结
| 步骤 | 内容 |
|---|---|
| 1️⃣ | 获取词的义项与层次位置 |
| 2️⃣ | 表示为语义向量或路径编码 |
| 3️⃣ | 利用层级或信息量计算语义相似度 |
| 4️⃣ | 应用于词义消歧、相似度计算、文本理解 |
✅ 简要总结示例:
用同义词词典表示语义 = 用“词义类别 + 层级结构 + 关系特征”来刻画词的意义。
浙公网安备 33010602011771号