摘要: GPT,GPT-2,GPT-3 论文精读【论文精读】_哔哩哔哩_bilibili ELMo:将上下文当作特征,但是无监督的语料和我们真实的语料还是有区别的,不一定符合我们特定的任务,是一种双向的特征提取。 OpenAI GPT: 通过transformer decoder学习出来一个语言模型,不是固 阅读全文
posted @ 2023-04-15 23:24 LeonYi 阅读(517) 评论(0) 推荐(0) 编辑
摘要: 一、BERT原理 1、概述 背景:通过在大规模语料上预训练语言模型,可以显著提高其在NLP下游任务的表现。 动机:限制模型潜力的主要原因在于现有模型使用的都是单向的语言模型(例如GPT),无法充分了解到单词所在的上下文结构(主要是在判别性任务上,分类、抽取等)。 Idea: 受完形填空的启发,BER 阅读全文
posted @ 2023-04-15 23:16 LeonYi 阅读(1651) 评论(0) 推荐(0) 编辑
摘要: 一、熵(PRML) 考虑将A地观测的一个随机变量x,编码后传输到B地。 这个随机变量有8种可能的状态,每个状态都是等可能的。为了把x的值传给接收者,需要传输一个3-bits的消息。注意,这个变量的熵由下式给出: ⾮均匀分布⽐均匀分布的熵要⼩。 如果概率分布非均匀,同样使用等长编码,那么并不是最优的。 阅读全文
posted @ 2023-04-15 23:01 LeonYi 阅读(279) 评论(0) 推荐(1) 编辑
摘要: 一、Transformer Transformer最开始用于机器翻译任务,其架构是seq2seq的编码器解码器架构。其核心是自注意力机制: 每个输入都可以看到全局信息,从而缓解RNN的长期依赖问题。 输入: (待学习的)输入词嵌入 + 位置编码(相对位置) 编码器结构: 6层编码器: 一层编码器 = 阅读全文
posted @ 2023-04-15 22:51 LeonYi 阅读(555) 评论(0) 推荐(0) 编辑
摘要: 一、背景 编码是信息处理的基础(重新表示信息)。 普通的编码是等长编码,例如7位的ASCIL编码,对出现频率不同的字符都使用相同的编码长度。但其在传输和存储等情况下编码效率不高。 可使用不等长编码,来压缩编码:高频字符编码长度更短,低频字符编码长度更长。 [例] 将百分制的考试成绩转换成五分制的成绩 阅读全文
posted @ 2023-04-15 22:41 LeonYi 阅读(375) 评论(0) 推荐(0) 编辑
摘要: Expectation Maximization,EM算法是带有隐变量的概率模型参数的极大似然估计(MLE为给定参数,观测数据出现/生成的可能性)。 如下为《统计机器学习》中对应EM算法的笔记。 观测数据Y和隐变量X合称,完全数据 观测数据Y称,不完全数据 E步:(期望步)求Q函数(上一轮参数固定, 阅读全文
posted @ 2023-04-15 21:49 LeonYi 阅读(299) 评论(0) 推荐(0) 编辑