2023 年 4月 15 日随笔档案 - LeonYi

2023年4月15日

【大语言模型基础】GPT（Generative Pre-training ）生成式无监督预训练模型原理

摘要： GPT，GPT-2，GPT-3 论文精读【论文精读】_哔哩哔哩_bilibili ELMo：将上下文当作特征，但是无监督的语料和我们真实的语料还是有区别的，不一定符合我们特定的任务，是一种双向的特征提取。 OpenAI GPT: 通过transformer decoder学习出来一个语言模型，不是固阅读全文

posted @ 2023-04-15 23:24 LeonYi 阅读(517) 评论(0) 推荐(0) 编辑

【预训练语言模型】BERT原理解析、常见问题

摘要：一、BERT原理 1、概述背景：通过在大规模语料上预训练语言模型，可以显著提高其在NLP下游任务的表现。动机：限制模型潜力的主要原因在于现有模型使用的都是单向的语言模型（例如GPT），无法充分了解到单词所在的上下文结构（主要是在判别性任务上，分类、抽取等）。 Idea: 受完形填空的启发，BER 阅读全文

posted @ 2023-04-15 23:16 LeonYi 阅读(1651) 评论(0) 推荐(0) 编辑

【数学】信息论之从熵、惊奇到交叉熵、KL散度和互信息

摘要：一、熵（PRML）考虑将A地观测的一个随机变量x，编码后传输到B地。这个随机变量有8种可能的状态，每个状态都是等可能的。为了把x的值传给接收者，需要传输一个3-bits的消息。注意，这个变量的熵由下式给出: ⾮均匀分布⽐均匀分布的熵要⼩。如果概率分布非均匀，同样使用等长编码，那么并不是最优的。阅读全文

posted @ 2023-04-15 23:01 LeonYi 阅读(279) 评论(0) 推荐(1) 编辑

【大语言模型基础】-详解Transformer原理

摘要：一、Transformer Transformer最开始用于机器翻译任务，其架构是seq2seq的编码器解码器架构。其核心是自注意力机制：每个输入都可以看到全局信息，从而缓解RNN的长期依赖问题。输入：（待学习的）输入词嵌入 + 位置编码（相对位置）编码器结构： 6层编码器：一层编码器 = 阅读全文

posted @ 2023-04-15 22:51 LeonYi 阅读(555) 评论(0) 推荐(0) 编辑

【数据结构】哈夫曼树与哈夫曼编码(Huffman Encoding)

摘要：一、背景编码是信息处理的基础（重新表示信息）。普通的编码是等长编码，例如7位的ASCIL编码，对出现频率不同的字符都使用相同的编码长度。但其在传输和存储等情况下编码效率不高。可使用不等长编码，来压缩编码：高频字符编码长度更短，低频字符编码长度更长。 [例] 将百分制的考试成绩转换成五分制的成绩阅读全文

posted @ 2023-04-15 22:41 LeonYi 阅读(375) 评论(0) 推荐(0) 编辑

【机器学习】统计学习方法读书笔记-EM算法（期望最大化算法）

摘要： Expectation Maximization，EM算法是带有隐变量的概率模型参数的极大似然估计（MLE为给定参数，观测数据出现/生成的可能性）。如下为《统计机器学习》中对应EM算法的笔记。观测数据Y和隐变量X合称，完全数据观测数据Y称，不完全数据 E步：（期望步）求Q函数（上一轮参数固定，阅读全文

posted @ 2023-04-15 21:49 LeonYi 阅读(299) 评论(0) 推荐(0) 编辑

LeonYi

LeonYi

仰望星空，脚踏实地

公告