2023 年 10月 27 日随笔档案 - AncilunKiang

2023年10月27日

摘要：自注意力同时具有并行计算和最短的最大路径长度这两个优势。Transformer 模型完全基于注意力机制，没有任何卷积层或循环神经网络层。尽管 Transformer 最初是应用于在文本数据上的序列到序列学习，但现在已经推广到各种现代的深度学习中，例如语言、视觉、语音和强化学习领域。 10.7.1 模阅读全文

posted @ 2023-10-27 21:32 AncilunKiang 阅读(280) 评论(0) 推荐(0)

AncilunKiang

公告