07 2018 档案
摘要:一、符号定义 al: 第l层的输出值(经过了激活函数)。在DNN中是向量,在CNN中是张量。 σ:激活函数的表达形式。 zl: 第l层的输出值(未经过激活函数)。在DNN中是向量,在CNN中是张量。 wl: 第l层的权重。 y: gt。 :点积扩展,表示用后者构造一个与前者大小相同的矩阵,再进行点乘
阅读全文
摘要:一、static 1.作用: 静态变量/函数:在整个文件内可见,不会被其他文件所用;静态变量;会被自动初始化为0; 类中的静态变量:类的成员,类对象公用 类中的静态函数:只能访问静态变量 2.参考: https://www.cnblogs.com/wuhezhi/p/4832052.html 二、c
阅读全文
摘要:一、CART(分类回归树) 1.思想: 一种采用基尼信息增益作为划分属性的二叉决策树。基尼指数越小,表示纯度越高。 2.回归: 每个节点都有一个预测值,预测值等于属于该节点的所有样例的平均值,分支时,选择每个属性的每个阈值的最好分割点,衡量的标准是最小化均方差。 训练:对训练样本的第i(1<=i<=
阅读全文
摘要:一、经验、期望和结构风险 1.总结 经验风险是局部的,基于训练集所有样本点损失函数最小化的;期望风险是全局的,是基于所有样本点的损失函数最小化的。 经验风险函数是现实的,可求的;期望风险函数是理想化的,不可求的。 结构风险是对经验风险和期望风险的折中。 2.参考: https://blog.csdn
阅读全文
摘要:一、Alexnet(2012) 1.网络结构: 2.意义: 证明了CNN在复杂模型下的有效性,然后GPU实现使得训练在可接受的时间范围内得到结果。 二、VGG(由Alexnet发展而来,2014) 1.结构: 三、Inception(2014) 1.思想:(能够加宽网络获取不同特征的同时不增加计算量
阅读全文
摘要:一、Smooth L1 Loss 1.公式: 2.原因: L1损失使权值稀疏但是导数不连续,L2损失导数连续可以防止过拟合但对噪声不够鲁棒,分段结合两者优势。 L1 Loss的导数是常数,那么在训练后期,当预测值与 ground truth 差异很小时, L1 Loss 损失对预测值的导数的绝对值仍
阅读全文
摘要:一、感知机 1.模型和图像: 2.数学定义推导和优化: 3.流程 4.参考资料 https://blog.csdn.net/wodeai1235/article/details/54755735 二、线性回归 1.定义及解析解: a=(XTX) -1 XTy,如加2范数约束则解析解为a=(XTX+λ
阅读全文
摘要:一、sigmod 1.函数与图像:[0,1] 2.优缺点: 优点:输出映射在[0,1]之间;求导容易;无限阶可导。 缺点:容易产生梯度消失的问题,因为小于1的数累乘会接近0;输出不是以0为中心,输出都是正或负,会导致网络的学习能力受限。(这个特性会导致在后面神经网络的高层处理中收到不是零中心的数据。
阅读全文
摘要:一、梯度消失和梯度爆炸 1.基本原理 在深度神经网络中,通常采用BP方法更新权重,一般采用链式求导法则求得梯度来更新,导数项包括多个因式相乘,其中有激活函数的导数和初始值等。这时如果梯度过大连乘起来就会越来越大以至于超出范围无法收敛这叫做梯度爆炸,反之如果梯度过小连乘起来就会越来越小甚至为0导致权重
阅读全文
摘要:一、科大讯飞(合肥) 1.你简历上写的这个聚类的项目,具体是怎么做的呢? 2.你这个文字识别是用什么方法呢?检测用的什么?说一下该方法的具体使用?既然单阶段的结果不够好为什么不试一下其他方法呢? 3.期望薪资是多少? 4.家哪里的?有对象吗? 5.有什么想问的? 一面已过,二面等面了再来更。 二面已
阅读全文
摘要:文字检测与其他目标检测的区别 一、长宽比差异很大,而且普遍较小; 二、文字是以字符为基本单元按照一定空间排列而成的序列,而不是一个单独的目标; 三、文字存在多种粒度和多语言。 传统方法系列 一、流程 1.基于滑动窗口:用不同大小的窗口在原图上滑动,并用分类模型判断每一个窗口是否包含文字,最后对检测结
阅读全文
摘要:一、SVM 1.基本思想 基于训练集找到一个划分超平面,能将不同类别的样本分开。 方法是最大化不同类支持向量到超平面的距离。用拉格朗日乘子法求解问题。 SV M也可以做回归。 2.推导 3.核函数 可能非线性可分,即不存在一个超平面能分开正负样本,此时可将原始样本映射到更高维的空间,使其线性可分。
阅读全文
浙公网安备 33010602011771号