随笔分类 - DeepLearning
摘要:https://www.cnblogs.com/makefile/p/pooling.html
阅读全文
摘要:在ml模型的学习过程中,算法本身还是在偏差和方差上做权衡 欠拟合: 不能很好的拟合数据, 训练集上很差 过拟合: 训练集上表现好,测试集上表现差 方差: Variance反映的是模型每一次输出结果与模型输出期望之间的误差,即模型的稳定性。反应预测的波动情况。 偏差: Bias反映的是模型在样本上的输
阅读全文
摘要:信息熵 信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个度量。信息量是对信息的度量,就跟时间的度量是秒一样,当我们考虑一个离散的随机变量 x 的时候,当我们观察到的这个变量的一个具体值的时候,我
阅读全文
摘要:分类损失 二分类损失 ###二分类交叉熵损失(对数似然损失,逻辑回归损失) \(L(Y,f(x))=-\frac{1}{n}\sum [y\ln f(x)+(1-y)\ln (1-f(x))]\) 多分类损失 多分类交叉熵损失 \(L(Y,f(x))=-\frac{1}{n}\sum y_i ln
阅读全文
摘要:BP公式推导 bp算法通过loss计算得到的误差,从最后的输出层,通过loss不断的向后,对能影响到loss变化的传播路径中各个隐藏层的神经元的输入和输出函数求偏导,更新目标权重的一个过程。 具体的计算方式如下。 先来构建一个网络图,然后我们定义一些数学符号 其中 \(w_{ij}^{l}\) 表示
阅读全文
摘要:一般在DL或者一些ML的算法中,在分类的时候,都需要把算法输出值映射到[0-1]的概率空间去,或者在网络内部,神经元激活的时候,都需要一个激活函数。 常见的激活函数有 多分类激活函数softmax 简而言之,softmax就是把一些输出映射为0-1之间的实数,并且归一化保证和为1,因此多分类的概率之
阅读全文
摘要:FM FM的主要内容 了解fm模型之前,需要先说一下lr带入一下场景。lr作为早期ctr预估里面的模型,其速度上有着无可比拟的优势,而偏偏ctr场景下伴随着有大量的离散特征,高维稀疏特征,这个很适合lr的场景。 lr整个模型可以被描述为一个公式: \(y=w_0+\sum_{i=1}^{n}w_i*
阅读全文
摘要:RNN RNN背后的思想是利用顺序信息。在传统的神经网络中,我们假设所有的输入(包括输出)之间是相互独立的。对于很多任务来说,这是一个非常糟糕的假设。如果你想预测一个序列中的下一个词,你最好能知道哪些词在它前面。RNN之所以循环的,是因为它针对系列中的每一个元素都执行相同的操作,每一个操作都依赖于之
阅读全文
摘要:wgan之前, 原始GAN出现了什么问题? https://www.cnblogs.com/Allen rg/p/10305125.html 1. 判别器越好,生成器梯度消失越严重 2. 一句话概括:最小化第二种生成器loss函数,会等价于最小化一个不合理的距离衡量,导致两个问题,一是梯度不稳定,二
阅读全文
摘要:梯度消失和梯度爆炸: 梯度消失和梯度爆炸可以从同一个角度来解释, 根本原因是神经网络是根据链式求导法, 根据损失函数指导神经元之间的权重经行更新, 神经元的输入在经过激活函数激活, 通常, 如果我们选择sigmoid为激活函数: 通常,若使用的激活函数为sigmoid函数,其导数为: 这样可以看到,
阅读全文
摘要:https://www.cnblogs.com/skyfsm/p/8451834.html
阅读全文
摘要:激活函数各有优缺点, 优缺点从各自的函数和导数的图像上都能了解一二 Softmax 和 Sigmoid softmax对应多分类时候的激活函数, sigmoid对应二分类时候. softmax能将向量压缩到一个等维的0~1的概率分布值中,而且, 概率和为1 sigmoid则对应, 将一个数映射到 0
阅读全文
摘要:Batch Normalization "https://www.cnblogs.com/guoyaohua/p/8724433.html" 有几点需要注意: $x^{(k)}$指的是t层的输入. 也就是t 1层的输出x权重的变换 训练时,在做BN的时候, $E(x)^{(k)}$是mini bat
阅读全文
摘要:Focal Loss 是在交叉熵的基础上改进得到的,通过加入平衡因子alpha, 惩罚负样本 "详细信息"
阅读全文
摘要:Triplet Loss是深度学习中的一种损失函数,用于训练差异性较小的样本,如人脸等, Feed数据包括锚(Anchor)示例、正(Positive)示例、负(Negative)示例,通过优化锚示例与正示例的距离小于锚示例与负示例的距离,实现样本的相似性计算。 L=max(d(a,p)−d(a,n
阅读全文
摘要:0 1损失函数 预测值和目标值不等, 则为1, 否则为0 $$L(Y,f(x))= \begin{cases} 1, Y\not=f(x) \\ 0, Y=f(x) \end{cases} $$ 0 1损失直接对应分类判别的错误与否, 可以理解为是一个$sign$函数, 这样的函数, 是不连续的,
阅读全文
摘要:1. GAN为什么难以训练? 大多深度模型的训练都使用优化算法寻找损失函数比较低的值。优化算法通常是个可靠的“下山”过程。生成对抗神经网络要求双方在博弈的过程中达到势均力敌(均衡)。每个模型在更新的过程中(比如生成器)成功的“下山”,但同样的更新可能会造成博弈的另一个模型(比如判别器)“上山”。甚至
阅读全文
摘要:1. 信息熵 信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个度量。信息量是对信息的度量,就跟时间的度量是秒一样,当我们考虑一个离散的随机变量 x 的时候,当我们观察到的这个变量的一个具体值的时
阅读全文