2022年4月12日

重学transformer【学习笔记】

摘要: 以前对transformer的了解只能说个大概 你要说会吧 会的不彻底 不会吧 还能扯一顿。 来源:B站 老弓的学习笔记 这一步讲 decoder的工作原理 怎么感觉像个串行的?一会需要多注意 分批的时候是按照批次内的最长 我记得不是可设置吗 填充到多少? 拿一个batch举例 input不需要处理 阅读全文

posted @ 2022-04-12 15:09 nlp如此迷人 阅读(140) 评论(0) 推荐(0)

导航