Word2Vec+下游任务

2024.3.10 Word2Vec+下游任务

也是一种神经网络语言模型---->主要目的就是为了得到词向量

这类神经网络模型主要分为两个小类

CBOW 和 Skip-gram

主要作用：给出一个词的上下文，得到一个词

主要作用：给出一个词，得到词的上下文

NNLM----->重点是预测下一个词。主要是双层感知机softmax(w2(tanh(w1(xQ)+b1))+b2)

Word2Vec----->CBOW和Skip-gram的两种架构的重点都是得到一个Q矩阵。softmax(w1(xQ)+b1)

1.CBOW:一个老师告诉多个学生，Q矩阵怎么变

2.Skip:多个老师告诉一个学生，Q矩阵怎么变

得到的词向量不能实现一词多义的功能

ELMO:可以解决一词多义

Word2Vec模型是不是预训练模型？------>是

什么是预训练？

给出两个任务A和B，任务A已经做出了模型A,任务B无法解决（可以通过使用模型A，加快任务的解决）

例如：给你一个NLP（自然语言处理）里面的任务，给出一个问题X（Ni+ck），给出一个回答Y（handsome）

预训练语言模型终于出来了（给出一句话，我们使用独热编码（一一对应的一种表查询，不算预训练），再使用Word2Vec预训练好的Q矩阵直接得到词向量，然后进行接下来的任务）

1.冻结：可以不改变Q矩阵

2.微调：随着任务的改变，改变Q矩阵

posted @ 2024-03-10 20:56 adam12138 阅读(73) 评论(0) 收藏举报

刷新页面返回顶部