摘要: 自注意力机制 针对输入是一组向量,输出也是一组向量,输入长度为N的向量,输出同样为长度为N的向量。 单个输出 对于每一个输入向量a,经过蓝色部分self-attention之后都输出一个向量b,这个向量是考虑了所有的输入向量对a1产生的影响才得到的,这里有四个词向量a对应就会输出四个向量b。 下面以 阅读全文
posted @ 2025-02-18 22:09 小舟渡河 阅读(52) 评论(0) 推荐(0)
摘要: 什么是交叉注意力机制 在交叉注意力机制中,模型会使用一个输入序列作为查询(Query),然后根据另一个输入序列计算其相关的注意力权重。这种机制运行模型动态地关注不同的输入,决定哪些部分最重要。 交叉注意力的主要功能是捕捉两个输入之间的依赖关系。例如,在问答系统中,交叉注意力机制可以让模型根据问题动态 阅读全文
posted @ 2025-02-18 16:04 小舟渡河 阅读(431) 评论(0) 推荐(0)
摘要: 网络结构 conv 3 \(\times\) 3, ReLU : 就是卷积层,其中卷积核大小是3 \(\times\) 3 ,然后经过Relu激活。 copy and crop :意思是复制和裁剪。对于输出的尺寸,进行复制并进行中心裁剪,方便和后面上采样生成的尺寸进行拼接。 max pool 2 \ 阅读全文
posted @ 2025-02-18 10:59 小舟渡河 阅读(419) 评论(0) 推荐(1)