摘要: 2024.3.13 位置编码(Poitional Encoding) Self-Attention:对于每个词而言都是位置关系,把每个词的顺序打乱,得到的注意力值依然不变 优点: 解决了长序列依赖问题 可以并行 缺点: 开销变大(需要算力增加) 既然可以并行,则词与词之间不存在顺序关系(打乱一句话, 阅读全文
posted @ 2024-03-13 21:31 adam12138 阅读(494) 评论(0) 推荐(0)
摘要: 2024.3.13 Masked Self-Attention(掩码自注意力机制) 自注意力机制 自注意力机制计算单词相似度时,已经明确知道这句话有多少个单词,而掩码则是分批次给,最后一次给全 为什么要做这个改进:生成模型,生成单词,是一个个生成的 当我们做生成任务的是时候,我们也想对生成的这个单词 阅读全文
posted @ 2024-03-13 21:31 adam12138 阅读(1375) 评论(0) 推荐(1)
摘要: 2024.3.13 Self-Attention Self-Attention相比较RNN和LSTM的优缺点 RNN基本单元结构 无法做长序列,当一段话达到50个字,效果就很差 了复杂度为n的平方 $X_0$往后面越传播,信息越少(如你爷爷的爷爷的爷爷的名字) LSTM基本结构 LSTM通过各种门, 阅读全文
posted @ 2024-03-13 21:30 adam12138 阅读(374) 评论(0) 推荐(0)