摘要:
参考资料和说明都挺清楚的: 一.Attention is all you need论文中讲模型分为多个头,形成多个子空间,每个头关注不同方面的信息。如果Multi-Head作用是关注句子的不同方面,那么不同的head就应该关注不同的Token;当然也有可能是关注的pattern相同,但是关注的内容不 阅读全文
摘要:
算是写的非常清楚的GPT个版本的介绍了 从GPT三个版本的论文名也能看出各版本模型的重点: GPT1:Imporoving Language Understanding By Generative Pre-training 强调预训练 GPT2:Lanuage Models Are Unsuperv 阅读全文
摘要:
from https://blog.csdn.net/u013963380/article/details/108696552 本文翻译,原文地址: https://createmomo.github.io/2017/10/08/CRF-Layer-on-the-Top-of-BiLSTM-3/ h 阅读全文
摘要:
from https://www.cnblogs.com/hejunlin1992/p/8723816.html “Xavier”初始化方法是一种很有效的神经网络初始化方法,方法来源于2010年的一篇论文《Understanding the difficulty of training deep f 阅读全文