随笔档案「2025年6月」 - Merlin·Lee

梯度震荡

摘要：梯度震荡:通常指梯度在迭代更新的时候呈现剧烈波动或者不规则变化. 典型表现 1.数值波动大:梯度的大小在不同的迭代中显著起伏,例如某一步的梯度突然骤增或者骤降. 2.方向不稳定:参数路径曲折,并不是平滑的指向最优解. 3.损失函数震荡:损失值不平稳下降,而是频繁的上下波动,难以收敛或收敛速度极慢. 阅读全文

posted @ 2025-06-16 06:15 Merlin·Lee 阅读(121) 评论(0) 推荐(0)

正则化

摘要：看书没看懂,汗... 看csdn看懂了正则化什么是正则化,就是对于一个损失函数,我们加上一点限制,使得他在之后的函数中,不要过度膨胀. 引入正则化的原因就是前面说过的过拟合和欠拟合,我们当时说的解决过拟合的方法有: 1.清洗数据 2.减少模型参数 3.增加惩罚因子(正则化) 怎么正则化线性回归阅读全文

posted @ 2025-06-15 15:43 Merlin·Lee 阅读(61) 评论(0) 推荐(0)

随机梯度下降

摘要：说来惭愧,在过去的几篇个人记录中,过于关注布置的课题和衍生知识,竟然忘记了深度学习最最最基础的随机梯度下降,这是不好的因为每次在看到什么新的名词或者算法的时候都会或多或少提到随机梯度下降,我就需要再回去看一遍,遂补坑. 梯度下降法记得看到过一个说法,深度学习最关键的是设计各种各样的优化,所以把要最阅读全文

posted @ 2025-06-14 13:39 Merlin·Lee 阅读(31) 评论(0) 推荐(0)

交叉熵与交叉熵损失

摘要：熵熵的定义:无损编码事件信息的最小平均编码长度对熵的直接计算与意义这里直接给出一些结论.对于某一事件,其发生的概率越小,那么其信息量越大;发生的概率越大,那么其信息量越小(最小不小于0).因此，有信息量公式如下: \(h(x)=-\log_2 p(x)\) 熵的公式: \(H(X)=-\sum 阅读全文

posted @ 2025-06-12 08:52 Merlin·Lee 阅读(32) 评论(0) 推荐(0)

学习率与步长

摘要：步长步长是指卷积核(或池化窗口)在输入数据的宽度和高度方向上每次滑动的像素数(对于二维数据，如图像).通常用整数表示,例如步长为 1,2 等. 比如我们给出这两个图像对于一个收敛的过程,总归是要走的,已经到了最低点后,对于这个点的均方误差就是0了,所以在这之后我们无论怎么走,loss一定会增加, 阅读全文

posted @ 2025-06-10 22:03 Merlin·Lee 阅读(159) 评论(0) 推荐(0)

仿射变换

摘要：仿射变换仿射变换两种简单变换的叠加:线性变换和平移变换包括:缩放,平移,旋转,反射,错切直线仿射变换后还是直线,平行线仿射变换后还是平行线性质保持不变: 1.凸凹性 2.共线性:若几个点变换前在一条线上,仿射变换后仍然在一条线上 3.平行性:平行线仿射变换后还是平行线 4.共线比例不变一阅读全文

posted @ 2025-06-10 13:46 Merlin·Lee 阅读(77) 评论(0) 推荐(0)

梯度消失与梯度爆炸

摘要：梯度消失与梯度爆炸梯度及其更新深层次的神经网络要比浅层次的神经网络有更好的处理数据的效果,目前优化神经网络的方法都是基于反向传播的思想，即根据损失函数计算的误差通过梯度反向传播的方式，来对更深的层次进行更新优化. 所以,我们可以把一个神经网络看作是一个复合的多元的非线性函数.而我们最终的目的是要阅读全文

posted @ 2025-06-10 06:37 Merlin·Lee 阅读(26) 评论(0) 推荐(0)

我回来啦！

摘要：Hello！博客园！ MerlinLee回来啦！会在这里写很多跟人工智能&机器学习&深度学习有关的博文，来看喵！阅读全文

posted @ 2025-06-08 20:45 Merlin·Lee 阅读(21) 评论(1) 推荐(0)

Merlin·Lee

少年回头望笑我还不快跟上

06 2025 档案

公告

Merlin·Lee

少年回头望 笑我还不快跟上

06 2025 档案

公告

少年回头望笑我还不快跟上