Word2Vec+下游任务

2024.3.10 Word2Vec+下游任务

word2vec

也是一种神经网络语言模型---->主要目的就是为了得到词向量

这类神经网络模型主要分为两个小类

CBOWSkip-gram

CBOW

主要作用:给出一个词的上下文,得到一个词

Skip-gram

主要作用:给出一个词,得到词的上下文

NNLM和Word2Vec的区别

NNLM----->重点是预测下一个词。主要是双层感知机softmax(w2(tanh(w1(xQ)+b1))+b2)

Word2Vec----->CBOW和Skip-gram的两种架构的重点都是得到一个Q矩阵。softmax(w1(xQ)+b1)

1.CBOW:一个老师告诉多个学生,Q矩阵怎么变

2.Skip:多个老师告诉一个学生,Q矩阵怎么变

Word2Vec的缺点

得到的词向量不能实现一词多义的功能

ELMO:可以解决一词多义

下游任务

Word2Vec模型是不是预训练模型?------>

什么是预训练?

给出两个任务A和B,任务A已经做出了模型A,任务B无法解决(可以通过使用模型A,加快任务的解决)

例如:给你一个NLP(自然语言处理)里面的任务,给出一个问题X(Ni+ck),给出一个回答Y(handsome)

预训练语言模型终于出来了(给出一句话,我们使用独热编码(一一对应的一种表查询,不算预训练),再使用Word2Vec预训练好的Q矩阵直接得到词向量,然后进行接下来的任务)

1.冻结:可以不改变Q矩阵

2.微调:随着任务的改变,改变Q矩阵

posted @ 2024-03-10 20:56  adam12138  阅读(73)  评论(0)    收藏  举报