会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
阁下
博客园
首页
新随笔
联系
订阅
管理
2024年4月20日
Transformer笔记
摘要: 整体结构 注意: 原始论文中的 自注意力 和 多头注意力的 Q, K, V矩阵的位置是不一样的 自注意力 初始的Q, K, V矩阵都是一样的数据: 文本的embedding矩阵, 只是通过了不同的Linear处理. Self-Attention的作用:捕捉序列内部各个元素之间的依赖关系,无论它们之间
阅读全文
posted @ 2024-04-20 21:21 漫漫长夜何时休
阅读(50)
评论(0)
推荐(0)
公告