上一页 1 ··· 31 32 33 34 35 36 37 38 39 ··· 132 下一页
摘要: 这里从一堆概率的乘积转化为一堆\(\log\)的求和的原因之一也是为了防止数值下溢。然后原文说是为了惩罚长序列,其实是为了惩罚短序列,在没有除以\(L^{\alpha}\)的时候,模型更倾向于输出短的序列,这个操作叫做规范化,如果\(\alpha=1\),则叫做完全规范化 那么调整超参数束宽的时候我 阅读全文
posted @ 2025-02-19 09:53 最爱丁珰 阅读(28) 评论(0) 推荐(0)
摘要: Adam(Adaptive Moment Estimation)算法可以直观理解为“智能调整步长的动量法”,结合了动量加速和自适应学习率的优势。以下是逐步解释: 1. 核心思想:动量和自适应学习率的结合 动量(惯性):类似滚下山坡的球,利用历史梯度方向保持运动惯性,减少震荡。 自适应学习率:根据每个 阅读全文
posted @ 2025-02-17 15:16 最爱丁珰 阅读(67) 评论(0) 推荐(0)
摘要: AdaGrad的两个好处的第一个解释如下 第一个benefit的含义是: Adagrad通过自动累加历史梯度平方值来调整学习率,省去了人为设定“梯度多大才算大”的阈值(threshold)。 具体解释: 原始方法的问题:例如在某些优化算法中,可能需要手动设定一个阈值,当梯度超过该值时,才调整学习率或 阅读全文
posted @ 2025-02-17 14:57 最爱丁珰 阅读(46) 评论(0) 推荐(0)
摘要: 从零开始实现中,sgd_momentum这个函数中的循环一定是要原地修改的,具体原因见这篇博客 阅读全文
posted @ 2025-02-17 09:54 最爱丁珰 阅读(12) 评论(0) 推荐(0)
摘要: 动量法之所以叫动量法的原因:实际上是在维护一个动量,从而让每一次改变(由于惯性)不改变太多,减少震荡 有效样本权重那里,翻译有错误。原文说的是在(随机)梯度下降中将\(\eta\)变为\(\frac{\eta}{1-\beta}\),而不是在动量法中。这样子做相当于在(随机)梯度下降中模拟了一个近似 阅读全文
posted @ 2025-02-17 08:30 最爱丁珰 阅读(22) 评论(0) 推荐(0)
摘要: 首先复习一下有放回抽样和无放回抽样的等价性。假设现在有\(n\)个不同物体,我们从中抽取\(B\)个物体。计算第\(i\)次抽到某个特定物品的概率。对于有放回抽样,概率为\(\frac{1}{n}\);对于无放回抽样,概率为\(\frac{A^{B-1}_{n-1}}{A^{B}_n}=\frac{ 阅读全文
posted @ 2025-02-16 18:58 最爱丁珰 阅读(32) 评论(0) 推荐(0)
摘要: 目录数据预处理导包查看数据特征工程目标变量特征衍生特征选择信用卡正常消费和盗刷对比交易金额和交易次数信用卡消费时间分析交易金额和交易时间的关系特征分布(非常重要,帮助筛选特征)特征缩放特征重要性模型训练过采样算法建模交叉验证模型评估精确度-召回率曲线ROC曲线各评估指标的对比 数据预处理 导包 除了 阅读全文
posted @ 2025-02-16 18:30 最爱丁珰 阅读(71) 评论(0) 推荐(0)
摘要: 式\((11.47)\)应该有误,不等号左边还应该有一个项\(-E[||x_T-x^{*}||^2]\),之所以没写估计是因为认为\(x_T\)非常接近\(x^{*}\),所以可以忽略;另外不等号右边的括号打错了,应该是 \[2\underset{t=1}{\overset{T}{\sum}}\et 阅读全文
posted @ 2025-02-16 10:38 最爱丁珰 阅读(55) 评论(0) 推荐(0)
摘要: 式\((11.78)\)的直观理解:最开始的时候梯度很大,为了防止震荡,我们需要减小步长,这是分母的作用,但是梯度大就表示参数更新也应该大,所以需要增大步长,这是分子的作用;迭代一段时间之后,梯度就变小了,此时为了加速收敛,我们需要增大步长,这是分母的作用(注意这里跟\(\text{AdaGrad} 阅读全文
posted @ 2025-02-15 23:29 最爱丁珰 阅读(25) 评论(0) 推荐(0)
摘要: \(\text{BLEU}\)分数的主要目的是在有多个比较好的翻译的情况下去进行选择 但是吴恩达给的\(\text{BLEU}\)分数好像有一点不同,如下 这是没有带惩罚项的项(惩罚项跟书上的相同) 阅读全文
posted @ 2025-02-15 20:18 最爱丁珰 阅读(15) 评论(0) 推荐(0)
上一页 1 ··· 31 32 33 34 35 36 37 38 39 ··· 132 下一页