随笔分类 -  经典模型

一些经典模型的复现
摘要:Bert实际上就是通过叠加多层transformer的encoder(transformer的介绍可以看我的这篇文章)通过两个任务进行训练的得到的。本文参考自BERT 的 PyTorch 实现,BERT 详解.主要结合自己对代码的一些理解融合成一篇以供学习。同时DaNing大佬的博客写的比我好的多, 阅读全文
posted @ 2022-02-04 19:27 xingye_z 阅读(1279) 评论(0) 推荐(2)
摘要:transformer是谷歌2017年发表的 attention is all you need 中提到的seq2seq模型,我们常用的Bert和GPT等都是基于transformer衍生的。本文主要参考了wmathor大佬的Transformer 详解和Transformer 的 PyTorch 阅读全文
posted @ 2022-01-28 21:33 xingye_z 阅读(1975) 评论(0) 推荐(1)