adam12138 - 博客园

2024年4月2日

摘要： 2024.4.2 修饰器简化 import time def time_sleep(): #函数停止运行多长时间 start = time.time() time.sleep(5) print('from time_sleep ') end = time.time() print(end - st 阅读全文

posted @ 2024-04-02 19:43 adam12138 阅读(28) 评论(0) 推荐(0)

2024年3月19日

Transformer （为什么用掩码，为什么用编码器）

摘要： 2024.3.19 Transformer （为什么用掩码，为什么用编码器） 1.为什么Decoder需要Mask 机器翻译：源语句（我爱中国），目标语句（I Love China）为了解决训练阶段和测试阶段的gap（不匹配）训练阶段：解码器会有输入，这个输入是目标语句，就是I Love Chi 阅读全文

posted @ 2024-03-19 16:34 adam12138 阅读(314) 评论(0) 推荐(0)

Multi-Head Self-Attention

摘要： 2024.3.13 Multi-Head Self-Attention Self-Attention Self-Attention 其实是 Attention 的一个具体做法给定一个 X，通过自注意力模型，得到一个 Z，这个 Z 就是对 X 的新的表征（词向量），Z 这个词向量相比较 X 拥有了句阅读全文

posted @ 2024-03-19 16:33 adam12138 阅读(158) 评论(0) 推荐(0)

2024年3月14日

Transformer框架+编码器+解码器

摘要： 2024.3.14 Transformer框架+编码器+解码器预训练 >NNLM >word2vec >ElMo >Attention NLP(自然语言处理)中预训练的目的，其实就是为了生成词向量 transformer其实就是attention的一个堆叠 Transformer 的整体框架 [T 阅读全文

posted @ 2024-03-14 21:30 adam12138 阅读(897) 评论(0) 推荐(0)

2024年3月13日

位置编码（Poitional Encoding）

摘要： 2024.3.13 位置编码（Poitional Encoding） Self-Attention:对于每个词而言都是位置关系，把每个词的顺序打乱，得到的注意力值依然不变优点：解决了长序列依赖问题可以并行缺点：开销变大（需要算力增加）既然可以并行，则词与词之间不存在顺序关系（打乱一句话，阅读全文

posted @ 2024-03-13 21:31 adam12138 阅读(512) 评论(0) 推荐(0)

Masked Self-Attention(掩码自注意力机制)

摘要： 2024.3.13 Masked Self-Attention(掩码自注意力机制) 自注意力机制自注意力机制计算单词相似度时，已经明确知道这句话有多少个单词，而掩码则是分批次给，最后一次给全为什么要做这个改进：生成模型，生成单词，是一个个生成的当我们做生成任务的是时候，我们也想对生成的这个单词阅读全文

posted @ 2024-03-13 21:31 adam12138 阅读(1398) 评论(0) 推荐(1)

Self-Attention相比较RNN和LSTM的优缺点

摘要： 2024.3.13 Self-Attention Self-Attention相比较RNN和LSTM的优缺点 RNN基本单元结构无法做长序列，当一段话达到50个字，效果就很差了复杂度为n的平方 $X_0$往后面越传播，信息越少（如你爷爷的爷爷的爷爷的名字） LSTM基本结构 LSTM通过各种门，阅读全文

posted @ 2024-03-13 21:30 adam12138 阅读(392) 评论(0) 推荐(0)

2024年3月12日

Self-Attention和Attentiond的区别

摘要： 2024.3.12 Self-Attention和Attentiond的区别注意力机制是一个很宽泛（宏大）的一个概念，QKV相乘就是注意力，但是他没有规定QKV是怎么来的通过一个查询变量Q，去找到V里面比较重要的东西假设K==V，然后QK相乘求相似度A，然后AV相乘得到注意力值Z，这个Z就是V 阅读全文

posted @ 2024-03-12 21:30 adam12138 阅读(121) 评论(0) 推荐(0)

自-注意力机制（向量）

摘要： 2024.3.12 自-注意力机制（向量）首先可以看到 Self Attention 有三个输入 Q、K、V：对于 Self Attention，Q、K、V 来自句子 X 的词向量 x 的线性转化，即对于词向量 x，给定三个可学习的矩阵参数$W_Q$ ，$W_K$,$W_V$,x 分别右乘上述矩阅读全文

posted @ 2024-03-12 17:04 adam12138 阅读(233) 评论(0) 推荐(0)

Attention(注意力机制)

摘要： 2024.3.12 Attention(注意力机制) ## 怎么做注意力我（查询对象Q)，这张图（被查询对象V）如：我看这张图，第一眼，我就会去判断哪些东西对我而言更重要，哪些有更不重要（去计算Q和V里的事物的重要度）重要度计算，其实是不是就是相似度计算（更接近） Q，$K =k_1,k_2, 阅读全文

posted @ 2024-03-12 17:03 adam12138 阅读(93) 评论(0) 推荐(0)

公告