ELMO模型—>解决向量一词多义

2024.3.11 ELMO模型—>解决向量一词多义

ElMO（专门做词向量，通过预训练）

不只是训练一个Q矩阵，我们还可以把这个词的上下文信息融入到这个Q矩阵中

上图中，左边的LSTM获取E2的上文信息，右边对应获取下文信息

通过连接上下文

apple---->我吃了一个苹果----->[1,20,10]

apple---->我在使用苹果手机----->[1,10,20]

RNN 解决了时序依赖问题，但这里的时序一般指的是短距离的，首先我们先介绍下短距离依赖和长距离依赖的区别：

短距离依赖：对于这个填空题 “我想看一场篮球____”，我们很容易就判断出 “篮球” 后面跟的是 “比赛”，这种短距离依赖问题非常适合 RNN。
长距离依赖：对于这个填空题 “我出生在中国的瓷都景德镇，小学和中学离家都很近，……，我的母语是____”，对于短距离依赖，“我的母语是” 后面可以紧跟着 “汉语”、“英语”、“法语”，但是如果我们想精确答案，则必须回到上文中很长距离之前的表述 “我出生在中国的瓷都景德镇”，进而判断答案为 “汉语”，而 RNN 是很难学习到这些信息的。

LSTM远距离梯度不至于完全消失，也就能够解决 RNN 中存在的梯度消失问题

posted @ 2024-03-11 18:15 adam12138 阅读(71) 评论(0) 收藏举报

刷新页面返回顶部