Embedding过程,嵌入向量计算示例

嵌入向量计算示例

1. 问题设定

  • 场景:电影推荐系统中用户对电影类型的偏好嵌入
  • 输入特征:4种电影类型(动作片、喜剧片、科幻片、爱情片)
  • 嵌入维度n_e = 2
  • 词汇大小n_v = 4

2. 数据表示

(1)独热编码
电影类型 独热编码向量
动作片 [1, 0, 0, 0]
喜剧片 [0, 1, 0, 0]
科幻片 [0, 0, 1, 0]
爱情片 [0, 0, 0, 1]
(2)初始嵌入矩阵

3. 嵌入向量计算

4. 结果分析

电影类型 嵌入向量 语义含义(假设训练后)
动作片 [0.1, 0.5] 与科幻片接近(高能量特征)
喜剧片 [0.2, 0.6] 与爱情片较远(情感特征差异大)
科幻片 [0.3, 0.7] 与动作片聚类(科技+刺激关联)
爱情片 [0.4, 0.8] 与喜剧片较远(情感类型差异)

5. 关键公式总结

6. 可视化示意图

动作片 (0.1, 0.5)  ← 接近 → 科幻片 (0.3, 0.7)
↑
|
爱情片 (0.4, 0.8)  ← 远离 → 喜剧片 (0.2, 0.6)

7. 训练后的潜在变化

  • 假设训练后
    • 动作片与科幻片的嵌入向量可能更接近(因用户常同时偏好两类)。
    • 爱情片与喜剧片的嵌入向量可能分离(因情感类型差异)。
  • 学习目标:通过反向传播优化 ( W_{\text{embed}} ),使嵌入向量反映真实语义关联。

:实际训练中,嵌入矩阵会动态更新,此处仅为初始值示例。

posted @ 2025-03-13 15:51  日月既往、不复可追。  阅读(68)  评论(0)    收藏  举报
Fork me on GitHub /*音乐*/ 1 2 3
4