摘要: Transformer 1.理论 1.1 Model Structure 1.2 Multi-Head Attention & Scaled Dot-Product Attention 2.实验 2.1 束搜索 束搜索过程示意图: 2.2 Issue 贪婪搜索和束搜索 贪婪搜索和束搜索都是针对多个时 阅读全文
posted @ 2022-09-18 23:27 CJK'sBLOG 阅读(207) 评论(0) 推荐(0)