2024 年 4月 20 日随笔档案 - 漫漫长夜何时休

2024年4月20日

摘要：整体结构注意: 原始论文中的自注意力和多头注意力的 Q, K, V矩阵的位置是不一样的自注意力初始的Q, K, V矩阵都是一样的数据: 文本的embedding矩阵, 只是通过了不同的Linear处理. Self-Attention的作用：捕捉序列内部各个元素之间的依赖关系，无论它们之间阅读全文

posted @ 2024-04-20 21:21 漫漫长夜何时休阅读(50) 评论(0) 推荐(0)

阁下

公告