06 2025 档案
摘要:梯度震荡:通常指梯度在迭代更新的时候呈现剧烈波动或者不规则变化. 典型表现 1.数值波动大:梯度的大小在不同的迭代中显著起伏,例如某一步的梯度突然骤增或者骤降. 2.方向不稳定:参数路径曲折,并不是平滑的指向最优解. 3.损失函数震荡:损失值不平稳下降,而是频繁的上下波动,难以收敛或收敛速度极慢.
阅读全文
摘要:看书没看懂,汗... 看csdn看懂了 正则化 什么是正则化,就是对于一个损失函数,我们加上一点限制,使得他在之后的函数中,不要过度膨胀. 引入正则化的原因就是前面说过的过拟合和欠拟合,我们当时说的解决过拟合的方法有: 1.清洗数据 2.减少模型参数 3.增加惩罚因子(正则化) 怎么正则化 线性回归
阅读全文
摘要:说来惭愧,在过去的几篇个人记录中,过于关注布置的课题和衍生知识,竟然忘记了深度学习最最最基础的随机梯度下降,这是不好的因为每次在看到什么新的名词或者算法的时候都会或多或少提到随机梯度下降,我就需要再回去看一遍,遂补坑. 梯度下降法 记得看到过一个说法,深度学习最关键的是设计各种各样的优化,所以把要最
阅读全文
摘要:熵 熵的定义:无损编码事件信息的最小平均编码长度 对熵的直接计算与意义 这里直接给出一些结论.对于某一事件,其发生的概率越小,那么其信息量越大;发生的概率越大,那么其信息量越小(最小不小于0).因此,有信息量公式如下: \(h(x)=-\log_2 p(x)\) 熵的公式: \(H(X)=-\sum
阅读全文
摘要:步长 步长是指卷积核(或池化窗口)在输入数据的宽度和高度方向上每次滑动的像素数(对于二维数据,如图像).通常用整数表示,例如步长为 1,2 等. 比如我们给出这两个图像 对于一个收敛的过程,总归是要走的,已经到了最低点后,对于这个点的均方误差就是0了,所以在这之后我们无论怎么走,loss一定会增加,
阅读全文
摘要:仿射变换 仿射变换 两种简单变换的叠加:线性变换和平移变换 包括:缩放,平移,旋转,反射,错切 直线仿射变换后还是直线,平行线仿射变换后还是平行线 性质保持不变: 1.凸凹性 2.共线性:若几个点变换前在一条线上,仿射变换后仍然在一条线上 3.平行性:平行线仿射变换后还是平行线 4.共线比例不变 一
阅读全文
摘要:梯度消失与梯度爆炸 梯度及其更新 深层次的神经网络要比浅层次的神经网络有更好的处理数据的效果,目前优化神经网络的方法都是基于反向传播的思想,即根据损失函数计算的误差通过梯度反向传播的方式,来对更深的层次进行更新优化. 所以,我们可以把一个神经网络看作是一个复合的多元的非线性函数.而我们最终的目的是要
阅读全文
摘要:Hello!博客园! MerlinLee回来啦! 会在这里写很多跟人工智能&机器学习&深度学习有关的博文,来看喵!
阅读全文

浙公网安备 33010602011771号