随笔分类 -  4 扩散模型

摘要:Transformer ) 名称解释: Self-Attention: 类似于CNN里面的Conv层,是Transformer中重复次数最多的特征提取Layer。 Multi-Head Attention: 相对于Self-Attention,将每个节点外接多个q、k、v head。 Cross A 阅读全文
posted @ 2024-03-04 23:20 fariver 阅读(35) 评论(0) 推荐(0)