摘要: 2024.4.2 修饰器 简化 import time def time_sleep(): #函数停止运行多长时间 start = time.time() time.sleep(5) print('from time_sleep ') end = time.time() print(end - st 阅读全文
posted @ 2024-04-02 19:43 adam12138 阅读(23) 评论(0) 推荐(0)
摘要: 2024.3.19 Transformer (为什么用掩码,为什么用编码器) 1.为什么Decoder需要Mask 机器翻译:源语句(我爱中国),目标语句(I Love China) 为了解决训练阶段和测试阶段的gap(不匹配) 训练阶段:解码器会有输入,这个输入是目标语句,就是I Love Chi 阅读全文
posted @ 2024-03-19 16:34 adam12138 阅读(308) 评论(0) 推荐(0)
摘要: 2024.3.13 Multi-Head Self-Attention Self-Attention Self-Attention 其实是 Attention 的一个具体做法 给定一个 X,通过自注意力模型,得到一个 Z,这个 Z 就是对 X 的新的表征(词向量),Z 这个词向量相比较 X 拥有了句 阅读全文
posted @ 2024-03-19 16:33 adam12138 阅读(142) 评论(0) 推荐(0)
摘要: 2024.3.14 Transformer框架+编码器+解码器 预训练 >NNLM >word2vec >ElMo >Attention NLP(自然语言处理)中预训练的目的,其实就是为了生成词向量 transformer其实就是attention的一个堆叠 Transformer 的整体框架 [T 阅读全文
posted @ 2024-03-14 21:30 adam12138 阅读(876) 评论(0) 推荐(0)
摘要: 2024.3.13 位置编码(Poitional Encoding) Self-Attention:对于每个词而言都是位置关系,把每个词的顺序打乱,得到的注意力值依然不变 优点: 解决了长序列依赖问题 可以并行 缺点: 开销变大(需要算力增加) 既然可以并行,则词与词之间不存在顺序关系(打乱一句话, 阅读全文
posted @ 2024-03-13 21:31 adam12138 阅读(493) 评论(0) 推荐(0)
摘要: 2024.3.13 Masked Self-Attention(掩码自注意力机制) 自注意力机制 自注意力机制计算单词相似度时,已经明确知道这句话有多少个单词,而掩码则是分批次给,最后一次给全 为什么要做这个改进:生成模型,生成单词,是一个个生成的 当我们做生成任务的是时候,我们也想对生成的这个单词 阅读全文
posted @ 2024-03-13 21:31 adam12138 阅读(1374) 评论(0) 推荐(1)
摘要: 2024.3.13 Self-Attention Self-Attention相比较RNN和LSTM的优缺点 RNN基本单元结构 无法做长序列,当一段话达到50个字,效果就很差 了复杂度为n的平方 $X_0$往后面越传播,信息越少(如你爷爷的爷爷的爷爷的名字) LSTM基本结构 LSTM通过各种门, 阅读全文
posted @ 2024-03-13 21:30 adam12138 阅读(372) 评论(0) 推荐(0)
摘要: 2024.3.12 Self-Attention和Attentiond的区别 注意力机制是一个很宽泛(宏大)的一个概念,QKV相乘就是注意力,但是他没有规定QKV是怎么来的 通过一个查询变量Q,去找到V里面比较重要的东西 假设K==V,然后QK相乘求相似度A,然后AV相乘得到注意力值Z,这个Z就是V 阅读全文
posted @ 2024-03-12 21:30 adam12138 阅读(109) 评论(0) 推荐(0)
摘要: 2024.3.12 自-注意力机制(向量) 首先可以看到 Self Attention 有三个输入 Q、K、V:对于 Self Attention,Q、K、V 来自句子 X 的 词向量 x 的线性转化,即对于词向量 x,给定三个可学习的矩阵参数$W_Q$ ,$W_K$,$W_V$,x 分别右乘上述矩 阅读全文
posted @ 2024-03-12 17:04 adam12138 阅读(223) 评论(0) 推荐(0)
摘要: 2024.3.12 Attention(注意力机制) ## 怎么做注意力 我(查询对象Q),这张图(被查询对象V) 如:我看这张图,第一眼,我就会去判断哪些东西对我而言更重要,哪些有更不重要(去计算Q和V里的事物的重要度) 重要度计算,其实是不是就是相似度计算(更接近) Q,$K =k_1,k_2, 阅读全文
posted @ 2024-03-12 17:03 adam12138 阅读(87) 评论(0) 推荐(0)