随笔档案「2025年2月24日」：191 Transform网络 ... - 最爱丁珰

2025年2月24日

摘要： Transform网络首先构建编码器如下首先将输入进行多头注意力转换，然后放入前向传播网络。这个过程会重复\(N\)次（\(N\)的取值一般为\(6\)）在翻译的时候，我们首先将句子开始标识作为输入，输入进解码器，解码器首先会将输入进行多头注意力转换，然后会将编码器的输出一起，再进行多头注意力的阅读全文

posted @ 2025-02-24 23:19 最爱丁珰阅读(41) 评论(0) 推荐(0)

190 多头注意力机制

摘要：多头注意力其实就是将普通注意力机制进行多次，每次都得到一个结果，然后最终将这些结果直接用pd.concat拼接起来，然后再乘以一个矩阵即可，如下实际中，我们不会采取for循环计算多个头，而是直接采取并行计算阅读全文

posted @ 2025-02-24 22:54 最爱丁珰阅读(55) 评论(0) 推荐(0)

189 自注意力机制

摘要：假设现在有一个句子：Jane visited Afica last September. 那么到底是将Afica当做一个大洲处理还是当做一个度假胜地处理呢？这个是要就要去考察上下文了。普通的RNN是没办法考虑下文的，双向RNN又只能一个词一个词的计算，而自注意力机制就可以并行计算，如下自注意力要计阅读全文

posted @ 2025-02-24 15:46 最爱丁珰阅读(19) 评论(0) 推荐(0)

10.6.3 位置编码

摘要： Transformer之所以需要位置信息，是因为Transformer没有RNN那种循环结构，导致其无法区分每个token谁在前在后。数学上，比如Transformer的编码器，由于其是多头自注意力和逐位前馈网络，所以对于一个输入编码器的序列，将序列的顺序交换，最后得到的向量就是交换之前得到的向量也阅读全文

posted @ 2025-02-24 14:40 最爱丁珰阅读(16) 评论(0) 推荐(0)

10.6.1 自注意力

摘要：首先，RNN是逐个处理词元的，这个部分应该是指传统的RNN模型，比如LSTM或GRU，它们是按时间步依次处理输入序列的，每个时间步只处理一个词元，并且当前的输出依赖于前一个时间步的隐藏状态。所以它的处理是顺序的，不能同时处理后面的词元，必须一个接着一个来。这样做的好处是能够捕捉到序列中的时间依赖关系阅读全文

posted @ 2025-02-24 14:24 最爱丁珰阅读(32) 评论(0) 推荐(0)

最爱丁珰

公告