transformer中的attention为什么scaled?

个人学习使用,内容来源于网络,侵权删
参考链接:transformer中的attention为什么scaled? - 小莲子的回答 - 知乎

posted on 2024-02-29 12:27  zhou-snaker  阅读(2)  评论(0编辑  收藏  举报