03 2020 档案
摘要:在处理多维特征问题的时候,需要保证特征具有相近的尺度,这有助于梯度下降算法更快的收敛。 以预测房屋价格为例,假设有两个特征,房屋的尺寸和房屋的数量,尺寸的值为 0 2000 平方英尺,而房间数量的值则是 0 5,以两个参数分别为横纵坐标,绘制代价函数的等 高线图能,看出图像会显得很扁,梯度下降算法需
阅读全文
摘要:https://blog.csdn.net/xiaosongshine/article/details/88392620
阅读全文
摘要:梯度消失和梯度爆炸: 梯度消失和梯度爆炸可以从同一个角度来解释, 根本原因是神经网络是根据链式求导法, 根据损失函数指导神经元之间的权重经行更新, 神经元的输入在经过激活函数激活, 通常, 如果我们选择sigmoid为激活函数: 通常,若使用的激活函数为sigmoid函数,其导数为: 这样可以看到,
阅读全文
摘要:https://www.cnblogs.com/skyfsm/p/8451834.html
阅读全文
摘要:激活函数各有优缺点, 优缺点从各自的函数和导数的图像上都能了解一二 Softmax 和 Sigmoid softmax对应多分类时候的激活函数, sigmoid对应二分类时候. softmax能将向量压缩到一个等维的0~1的概率分布值中,而且, 概率和为1 sigmoid则对应, 将一个数映射到 0
阅读全文
摘要:先引入一个经典的表,辅助我们, 这个表叫做混淆矩阵 #准确率(Accuracy) 准确率反映了模型模型做出正确预测的比例 计算公式 \(Accuracy=\frac{TP+TN}{TP+TN+FP+FN}\) 准确率假设不同的分类是同等地位的,例如对猫狗洗好进行分类,问题中并没有对猫和狗有特定的侧重
阅读全文
摘要:Batch Normalization "https://www.cnblogs.com/guoyaohua/p/8724433.html" 有几点需要注意: $x^{(k)}$指的是t层的输入. 也就是t 1层的输出x权重的变换 训练时,在做BN的时候, $E(x)^{(k)}$是mini bat
阅读全文
摘要:范数 0范数 $L_0$范数表示为向量中非0元素的个数 $$L_0 ||x||_0 = x_i, (x_i \not= 0)$$ 1范数 向量中元素绝对值的和,也就是$x$与0之间的曼哈顿距离 $$L_1 = \sum |x_i|$$ 2范数 $x$与0之间的欧式范数, 也就是向量中的每个数的平方之
阅读全文
摘要:Spark结构 文章参考自厦门大学子雨大数据课程 Spark Core:包含Spark的基本功能;尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的 Spark SQL:提供通过Apache Hive的SQL变体Hive查询语言(Hive
阅读全文
摘要:Focal Loss 是在交叉熵的基础上改进得到的,通过加入平衡因子alpha, 惩罚负样本 "详细信息"
阅读全文
摘要:Triplet Loss是深度学习中的一种损失函数,用于训练差异性较小的样本,如人脸等, Feed数据包括锚(Anchor)示例、正(Positive)示例、负(Negative)示例,通过优化锚示例与正示例的距离小于锚示例与负示例的距离,实现样本的相似性计算。 L=max(d(a,p)−d(a,n
阅读全文
摘要:0 1损失函数 预测值和目标值不等, 则为1, 否则为0 $$L(Y,f(x))= \begin{cases} 1, Y\not=f(x) \\ 0, Y=f(x) \end{cases} $$ 0 1损失直接对应分类判别的错误与否, 可以理解为是一个$sign$函数, 这样的函数, 是不连续的,
阅读全文
摘要:1. GAN为什么难以训练? 大多深度模型的训练都使用优化算法寻找损失函数比较低的值。优化算法通常是个可靠的“下山”过程。生成对抗神经网络要求双方在博弈的过程中达到势均力敌(均衡)。每个模型在更新的过程中(比如生成器)成功的“下山”,但同样的更新可能会造成博弈的另一个模型(比如判别器)“上山”。甚至
阅读全文
摘要:1. 信息熵 信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个度量。信息量是对信息的度量,就跟时间的度量是秒一样,当我们考虑一个离散的随机变量 x 的时候,当我们观察到的这个变量的一个具体值的时
阅读全文

浙公网安备 33010602011771号