ELMO模型—>解决向量一词多义

2024.3.11 ELMO模型—>解决向量一词多义

elmo解决一词多义问题,与Word2Vec不同的是,可以融合上下文信息

ElMO(专门做词向量,通过预训练)

不只是训练一个Q矩阵,我们还可以把这个词的上下文信息融入到这个Q矩阵中

上图中,左边的LSTM获取E2的上文信息,右边对应获取下文信息

怎么处理一词多义问题

通过连接上下文

apple---->我吃了一个苹果----->[1,20,10]

apple---->我在使用苹果手机----->[1,10,20]

RNN

RNN 解决了时序依赖问题,但这里的时序一般指的是短距离的,首先我们先介绍下短距离依赖和长距离依赖的区别:

  • 短距离依赖:对于这个填空题 “我想看一场篮球____”,我们很容易就判断出 “篮球” 后面跟的是 “比赛”,这种短距离依赖问题非常适合 RNN。
  • 长距离依赖:对于这个填空题 “我出生在中国的瓷都景德镇,小学和中学离家都很近,……,我的母语是____”,对于短距离依赖,“我的母语是” 后面可以紧跟着 “汉语”、“英语”、“法语”,但是如果我们想精确答案,则必须回到上文中很长距离之前的表述 “我出生在中国的瓷都景德镇”,进而判断答案为 “汉语”,而 RNN 是很难学习到这些信息的。

LSTM远距离梯度不至于完全消失,也就能够解决 RNN 中存在的梯度消失问题

posted @ 2024-03-11 18:15  adam12138  阅读(71)  评论(0)    收藏  举报