08 ELMo模型(双向LSTM模型解决词向量多义问题)


Word2Vec 模型

NNLM 模型(是不是在预测下一个词,副产品是词向量)

Word2Vec 模型:专门做词向量

  1. CBOW
  2. Skip-gram

![image-20220614193540503](../../Library/Application Support/typora-user-images/image-20220614193540503.png)

apple,苹果,

ELMo

img

elmo 解决多义词问题

img

img

ELMo(专门做词向量,通过预训练)

不只是训练一个 Q 矩阵,我还可以把这个次的上下文信息融入到这个 Q 矩阵中

左边的 LSTM 获取 E2 的上文信息,右边就是下文信息

x1,x2, x4,x5 --> Word2Vec x1+x2+x4+x5 ---> 预测那一个词

获取上下文信息后,把三层的信息进行一个叠加

E1+E2+E3 = K1 一个新的词向量 \(\approx\) E1

E2,E3 相当于两个上下文信息

E1+E2+E3+E4

K1 包含了第一个词的词向量包含单词特征、句法特征、语义特征

怎么用

E2,E3 不同,E1+E2+E3 不同

apple --》 我吃了一个 苹果 -- 》 [1,20,10]

apple --》我在用苹果手机 --》[1,10,20]

img

LSTM 无法并行,长期依赖

Attention

posted @ 2022-07-12 16:51  B站-水论文的程序猿  阅读(3037)  评论(1编辑  收藏  举报