摘要:
Transform网络首先构建编码器如下 首先将输入进行多头注意力转换,然后放入前向传播网络。这个过程会重复\(N\)次(\(N\)的取值一般为\(6\)) 在翻译的时候,我们首先将句子开始标识作为输入,输入进解码器,解码器首先会将输入进行多头注意力转换,然后会将编码器的输出一起,再进行多头注意力的 阅读全文
posted @ 2025-02-24 23:19
最爱丁珰
阅读(41)
评论(0)
推荐(0)
摘要:
多头注意力其实就是将普通注意力机制进行多次,每次都得到一个结果,然后最终将这些结果直接用pd.concat拼接起来,然后再乘以一个矩阵即可,如下 实际中,我们不会采取for循环计算多个头,而是直接采取并行计算 阅读全文
posted @ 2025-02-24 22:54
最爱丁珰
阅读(55)
评论(0)
推荐(0)
摘要:
假设现在有一个句子:Jane visited Afica last September. 那么到底是将Afica当做一个大洲处理还是当做一个度假胜地处理呢?这个是要就要去考察上下文了。普通的RNN是没办法考虑下文的,双向RNN又只能一个词一个词的计算,而自注意力机制就可以并行计算,如下 自注意力要计 阅读全文
posted @ 2025-02-24 15:46
最爱丁珰
阅读(19)
评论(0)
推荐(0)
摘要:
Transformer之所以需要位置信息,是因为Transformer没有RNN那种循环结构,导致其无法区分每个token谁在前在后。数学上,比如Transformer的编码器,由于其是多头自注意力和逐位前馈网络,所以对于一个输入编码器的序列,将序列的顺序交换,最后得到的向量就是交换之前得到的向量也 阅读全文
posted @ 2025-02-24 14:40
最爱丁珰
阅读(16)
评论(0)
推荐(0)
摘要:
首先,RNN是逐个处理词元的,这个部分应该是指传统的RNN模型,比如LSTM或GRU,它们是按时间步依次处理输入序列的,每个时间步只处理一个词元,并且当前的输出依赖于前一个时间步的隐藏状态。所以它的处理是顺序的,不能同时处理后面的词元,必须一个接着一个来。这样做的好处是能够捕捉到序列中的时间依赖关系 阅读全文
posted @ 2025-02-24 14:24
最爱丁珰
阅读(32)
评论(0)
推荐(0)

浙公网安备 33010602011771号