摘要: Self attention考虑了整个sequence的资讯【transfermer中重要的架构是self-attention】 解决sequence2sequence的问题,考虑前后文 I saw a saw 第一个saw对应输出动词 第二个输出名词 如何计算相关性【attention score 阅读全文
posted @ 2023-07-19 21:54 AKA铁柱 阅读(14) 评论(0) 推荐(0)