会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
csjywu01
博客园
首页
新随笔
联系
订阅
管理
2025年2月16日
GPT
摘要: masked multi head attention 是指什么这里的mask 在 Masked Multi-Head Attention 中的 mask,通常指的是一种用于遮挡部分信息的机制,目的是控制哪些信息可以被模型在计算时“看到”或“访问”。在多头自注意力(Multi-Head Attent
阅读全文
posted @ 2025-02-16 15:27 GraphL
阅读(175)
评论(0)
推荐(0)
公告