摘要:
一、BERT原理 1、概述 背景:通过在大规模语料上预训练语言模型,可以显著提高其在NLP下游任务的表现。 动机:限制模型潜力的主要原因在于现有模型使用的都是单向的语言模型(例如GPT),无法充分了解到单词所在的上下文结构(主要是在判别性任务上,分类、抽取等)。 Idea: 受完形填空的启发,BER 阅读全文
posted @ 2023-04-15 23:16
LeonYi
阅读(4473)
评论(0)
推荐(0)
摘要:
一、熵(PRML) 考虑将A地观测的一个随机变量x,编码后传输到B地。 这个随机变量有8种可能的状态,每个状态都是等可能的。为了把x的值传给接收者,需要传输一个3-bits的消息。注意,这个变量的熵由下式给出: ⾮均匀分布⽐均匀分布的熵要⼩。 如果概率分布非均匀,同样使用等长编码,那么并不是最优的。 阅读全文
posted @ 2023-04-15 23:01
LeonYi
阅读(510)
评论(0)
推荐(1)
摘要:
一、Transformer Transformer最开始用于机器翻译任务,其架构是seq2seq的编码器解码器架构。其核心是自注意力机制: 每个输入都可以看到全局信息,从而缓解RNN的长期依赖问题。 输入: (待学习的)输入词嵌入 + 位置编码(相对位置) 编码器结构: 6层编码器: 一层编码器 = 阅读全文
posted @ 2023-04-15 22:51
LeonYi
阅读(2070)
评论(0)
推荐(1)
摘要:
一、背景 编码是信息处理的基础(重新表示信息)。 普通的编码是等长编码,例如7位的ASCIL编码,对出现频率不同的字符都使用相同的编码长度。但其在传输和存储等情况下编码效率不高。 可使用不等长编码,来压缩编码:高频字符编码长度更短,低频字符编码长度更长。 [例] 将百分制的考试成绩转换成五分制的成绩 阅读全文
posted @ 2023-04-15 22:41
LeonYi
阅读(1227)
评论(0)
推荐(0)
摘要:
Expectation Maximization,EM算法是带有隐变量的概率模型参数的极大似然估计(MLE为给定参数,观测数据出现/生成的可能性)。 如下为《统计机器学习》中对应EM算法的笔记。 观测数据Y和隐变量X合称,完全数据 观测数据Y称,不完全数据 E步:(期望步)求Q函数(上一轮参数固定, 阅读全文
posted @ 2023-04-15 21:49
LeonYi
阅读(377)
评论(0)
推荐(0)

基础 傅里叶变换 傅里叶级数是对周期为T的确定性信号做展开,而傅里叶变换将周期推广到无穷,能对具有任意长度的信号做展开。 傅里叶级数和傅里叶变换是什么关系? 如下为傅里叶变换公式: \[\hat{f}(t)={\int}f(x){\exp}^{-iwt}dx = {\int}f(x) \left(c
浙公网安备 33010602011771号