随笔分类 - 经典模型

一些经典模型的复现

摘要：Bert实际上就是通过叠加多层transformer的encoder(transformer的介绍可以看我的这篇文章)通过两个任务进行训练的得到的。本文参考自BERT 的 PyTorch 实现,BERT 详解.主要结合自己对代码的一些理解融合成一篇以供学习。同时DaNing大佬的博客写的比我好的多，阅读全文

posted @ 2022-02-04 19:27 xingye_z 阅读(1279) 评论(0) 推荐(2)

Transformer的原理及实现

摘要：transformer是谷歌2017年发表的 attention is all you need 中提到的seq2seq模型，我们常用的Bert和GPT等都是基于transformer衍生的。本文主要参考了wmathor大佬的Transformer 详解和Transformer 的 PyTorch 阅读全文

posted @ 2022-01-28 21:33 xingye_z 阅读(1975) 评论(0) 推荐(1)

随笔分类 - 经典模型

公告