上一页 1 ··· 28 29 30 31 32 33 34 35 36 ··· 130 下一页
摘要: 首先来介绍一下可变对象和不可变对象 可变对象:整数,浮点数,字符串,元组等 不可变对象:列表,字典,集合等 然后看一下Python中内存分配的方式 执行x=1会发生什么?此时,内存会分配一个地址给1,1是一个整型对象,而x是一个引用(不是对象!),指向1所在的位置,并不占用实际的内存空间,用图像表示 阅读全文
posted @ 2025-02-19 22:07 最爱丁珰 阅读(18) 评论(0) 推荐(0)
摘要: 之前我们学的RNN尝试先把整个句子全部都记下来,然后在进行翻译,所以可能出现一个问题,就是我们的模型没能够记住句子,这就是导致我们的\(\text{BLEU}\)分数下降。但是注意力机制让我们像人类一样翻译,也就是先翻译一部分,再翻译一部分,他和前者的\(\text{BLEU}\)分数曲线如下 蓝色 阅读全文
posted @ 2025-02-19 15:14 最爱丁珰 阅读(8) 评论(0) 推荐(0)
摘要: 语音识别使用注意力机制,输入是不同时间帧的音频,如下 但是有一个问题,就是语音识别中,很可能输入的长度要比(我们想要的)输出的长度长的多,这个时候可以利用类似“填充”的技巧让两者的长度一样,如下(假设输入的音频说的话是the quick brown fox) 上图只是一个很简单的示例。现实中很可能使 阅读全文
posted @ 2025-02-19 15:09 最爱丁珰 阅读(9) 评论(0) 推荐(0)
摘要: 我们利用\(\text{GRU}\)或者\(\text{LSTM}\)构建一个双向循环神经网络如下 然后预测的时候我们使用普通的RNN,但是这个RNN的输入取决于源句子的每一个单词的加权和。我们用\(y\)表示预测的句子,\(a\)表示输入的句子,那么也就是说我们定义\(\alpha^{\left< 阅读全文
posted @ 2025-02-19 14:40 最爱丁珰 阅读(10) 评论(0) 推荐(0)
摘要: 这里从一堆概率的乘积转化为一堆\(\log\)的求和的原因之一也是为了防止数值下溢。然后原文说是为了惩罚长序列,其实是为了惩罚短序列,在没有除以\(L^{\alpha}\)的时候,模型更倾向于输出短的序列,这个操作叫做规范化,如果\(\alpha=1\),则叫做完全规范化 那么调整超参数束宽的时候我 阅读全文
posted @ 2025-02-19 09:53 最爱丁珰 阅读(20) 评论(0) 推荐(0)
摘要: Adam(Adaptive Moment Estimation)算法可以直观理解为“智能调整步长的动量法”,结合了动量加速和自适应学习率的优势。以下是逐步解释: 1. 核心思想:动量和自适应学习率的结合 动量(惯性):类似滚下山坡的球,利用历史梯度方向保持运动惯性,减少震荡。 自适应学习率:根据每个 阅读全文
posted @ 2025-02-17 15:16 最爱丁珰 阅读(42) 评论(0) 推荐(0)
摘要: AdaGrad的两个好处的第一个解释如下 第一个benefit的含义是: Adagrad通过自动累加历史梯度平方值来调整学习率,省去了人为设定“梯度多大才算大”的阈值(threshold)。 具体解释: 原始方法的问题:例如在某些优化算法中,可能需要手动设定一个阈值,当梯度超过该值时,才调整学习率或 阅读全文
posted @ 2025-02-17 14:57 最爱丁珰 阅读(38) 评论(0) 推荐(0)
摘要: 从零开始实现中,sgd_momentum这个函数中的循环一定是要原地修改的,具体原因见这篇博客 阅读全文
posted @ 2025-02-17 09:54 最爱丁珰 阅读(6) 评论(0) 推荐(0)
摘要: 动量法之所以叫动量法的原因:实际上是在维护一个动量,从而让每一次改变(由于惯性)不改变太多,减少震荡 有效样本权重那里,翻译有错误。原文说的是在(随机)梯度下降中将\(\eta\)变为\(\frac{\eta}{1-\beta}\),而不是在动量法中。这样子做相当于在(随机)梯度下降中模拟了一个近似 阅读全文
posted @ 2025-02-17 08:30 最爱丁珰 阅读(13) 评论(0) 推荐(0)
摘要: 首先复习一下有放回抽样和无放回抽样的等价性。假设现在有\(n\)个不同物体,我们从中抽取\(B\)个物体。计算第\(i\)次抽到某个特定物品的概率。对于有放回抽样,概率为\(\frac{1}{n}\);对于无放回抽样,概率为\(\frac{A^{B-1}_{n-1}}{A^{B}_n}=\frac{ 阅读全文
posted @ 2025-02-16 18:58 最爱丁珰 阅读(15) 评论(0) 推荐(0)
上一页 1 ··· 28 29 30 31 32 33 34 35 36 ··· 130 下一页