最爱丁珰

2025年2月19日

摘要：首先来介绍一下可变对象和不可变对象可变对象：整数，浮点数，字符串，元组等不可变对象：列表，字典，集合等然后看一下Python中内存分配的方式执行x=1会发生什么？此时，内存会分配一个地址给1，1是一个整型对象，而x是一个引用（不是对象！），指向1所在的位置，并不占用实际的内存空间，用图像表示阅读全文

posted @ 2025-02-19 22:07 最爱丁珰阅读(18) 评论(0) 推荐(0)

184 注意力模型直觉

摘要：之前我们学的RNN尝试先把整个句子全部都记下来，然后在进行翻译，所以可能出现一个问题，就是我们的模型没能够记住句子，这就是导致我们的\(\text{BLEU}\)分数下降。但是注意力机制让我们像人类一样翻译，也就是先翻译一部分，再翻译一部分，他和前者的\(\text{BLEU}\)分数曲线如下蓝色阅读全文

posted @ 2025-02-19 15:14 最爱丁珰阅读(8) 评论(0) 推荐(0)

186 语音识别

摘要：语音识别使用注意力机制，输入是不同时间帧的音频，如下但是有一个问题，就是语音识别中，很可能输入的长度要比（我们想要的）输出的长度长的多，这个时候可以利用类似“填充”的技巧让两者的长度一样，如下（假设输入的音频说的话是the quick brown fox）上图只是一个很简单的示例。现实中很可能使阅读全文

posted @ 2025-02-19 15:09 最爱丁珰阅读(9) 评论(0) 推荐(0)

185 注意力模型（看不懂是什么模型，有空了重新看视频）

摘要：我们利用\(\text{GRU}\)或者\(\text{LSTM}\)构建一个双向循环神经网络如下然后预测的时候我们使用普通的RNN，但是这个RNN的输入取决于源句子的每一个单词的加权和。我们用\(y\)表示预测的句子，\(a\)表示输入的句子，那么也就是说我们定义\(\alpha^{\left< 阅读全文

posted @ 2025-02-19 14:40 最爱丁珰阅读(10) 评论(0) 推荐(0)

9.8.3 束搜索

摘要：这里从一堆概率的乘积转化为一堆\(\log\)的求和的原因之一也是为了防止数值下溢。然后原文说是为了惩罚长序列，其实是为了惩罚短序列，在没有除以\(L^{\alpha}\)的时候，模型更倾向于输出短的序列，这个操作叫做规范化，如果\(\alpha=1\)，则叫做完全规范化那么调整超参数束宽的时候我阅读全文

posted @ 2025-02-19 09:53 最爱丁珰阅读(20) 评论(0) 推荐(0)

2025年2月17日

11.10.1 算法

摘要： Adam(Adaptive Moment Estimation)算法可以直观理解为“智能调整步长的动量法”，结合了动量加速和自适应学习率的优势。以下是逐步解释： 1. 核心思想：动量和自适应学习率的结合动量（惯性）：类似滚下山坡的球，利用历史梯度方向保持运动惯性，减少震荡。自适应学习率：根据每个阅读全文

posted @ 2025-02-17 15:16 最爱丁珰阅读(42) 评论(0) 推荐(0)

11.7.1 稀疏特征和学习率

摘要： AdaGrad的两个好处的第一个解释如下第一个benefit的含义是： Adagrad通过自动累加历史梯度平方值来调整学习率，省去了人为设定“梯度多大才算大”的阈值（threshold）。具体解释：原始方法的问题：例如在某些优化算法中，可能需要手动设定一个阈值，当梯度超过该值时，才调整学习率或阅读全文

posted @ 2025-02-17 14:57 最爱丁珰阅读(38) 评论(0) 推荐(0)

11.6.2 实际实验

摘要：从零开始实现中，sgd_momentum这个函数中的循环一定是要原地修改的，具体原因见这篇博客阅读全文

posted @ 2025-02-17 09:54 最爱丁珰阅读(6) 评论(0) 推荐(0)

11.6.1 基础

摘要：动量法之所以叫动量法的原因：实际上是在维护一个动量，从而让每一次改变（由于惯性）不改变太多，减少震荡有效样本权重那里，翻译有错误。原文说的是在（随机）梯度下降中将\(\eta\)变为\(\frac{\eta}{1-\beta}\)，而不是在动量法中。这样子做相当于在（随机）梯度下降中模拟了一个近似阅读全文

posted @ 2025-02-17 08:30 最爱丁珰阅读(13) 评论(0) 推荐(0)

2025年2月16日

11.5.2 小批量

摘要：首先复习一下有放回抽样和无放回抽样的等价性。假设现在有\(n\)个不同物体，我们从中抽取\(B\)个物体。计算第\(i\)次抽到某个特定物品的概率。对于有放回抽样，概率为\(\frac{1}{n}\)；对于无放回抽样，概率为\(\frac{A^{B-1}_{n-1}}{A^{B}_n}=\frac{ 阅读全文

posted @ 2025-02-16 18:58 最爱丁珰阅读(15) 评论(0) 推荐(0)

公告