• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
返回主页

小筱痕

  • 博客园
  • 新随笔
  • 联系
  • 订阅
  • 管理

Transformer整理

这篇讲的挺好的,有些图可能看不清可以看Jay Alammar的原文

作者: 龙心尘
时间:2019年1月

出处:图解Transformer(完整版)

审校:百度NLP、龙心尘
翻译:张驰、毅航、Conrad
原作者:Jay Alammar
原链接:https://jalammar.github.io/illustrated-transformer/

下面这些相关研究也是挺不错的,可以看看:

Attention Is All You Need

Transformer博客

Tensor2Tensor announcement:

Łukasz Kaiser的Colab介绍

Depthwise Separable Convolutions for Neural Machine Translation

One Model To Learn Them All

Discrete Autoencoders for Sequence Models

Generating Wikipedia by Summarizing Long Sequences

Image Transformer

Training Tips for the Transformer Model

Self-Attention with Relative Position Representations

Fast Decoding in Sequence Models using Discrete Latent Variables

Adafactor: Adaptive Learning Rates with Sublinear Memory Cost



随心随我
posted @ 2021-09-07 16:23  小筱痕  阅读(60)  评论(0)    收藏  举报
刷新页面返回顶部

公告

博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3