摘要: masked multi head attention 是指什么这里的mask 在 Masked Multi-Head Attention 中的 mask,通常指的是一种用于遮挡部分信息的机制,目的是控制哪些信息可以被模型在计算时“看到”或“访问”。在多头自注意力(Multi-Head Attent 阅读全文
posted @ 2025-02-16 15:27 GraphL 阅读(175) 评论(0) 推荐(0)