随笔分类 - 经典模型
一些经典模型的复现
摘要:Bert实际上就是通过叠加多层transformer的encoder(transformer的介绍可以看我的这篇文章)通过两个任务进行训练的得到的。本文参考自BERT 的 PyTorch 实现,BERT 详解.主要结合自己对代码的一些理解融合成一篇以供学习。同时DaNing大佬的博客写的比我好的多,
阅读全文
摘要:transformer是谷歌2017年发表的 attention is all you need 中提到的seq2seq模型,我们常用的Bert和GPT等都是基于transformer衍生的。本文主要参考了wmathor大佬的Transformer 详解和Transformer 的 PyTorch
阅读全文
浙公网安备 33010602011771号