2018 年 8月 28 日随笔档案 - Siucaan

摘要： 1. lr里面公式为什么用e？在线性回归中，我们用模型的预测值y^" role="presentation">ŷ y^逼近样本的真实值y，相当于让wTx+b" role="presentation">wTx+bwTx+b逼近y。但是在实际应用中，我们... 阅读全文

posted @ 2018-08-28 16:51 Siucaan 阅读(397) 评论(0) 推荐(0) 编辑

摘要： 1.为什么引入非线性激励函数？因为如果不用非线性激励函数，每一层都是上一层的线性函数，无论神经网络多少层，输出都是输入的线性组合，与只有一个隐藏层效果一样。相当于多层感知机了。所以引入非线性激励函数，深层网络就变得有意义了，可以逼近任意函数。2.常用的激励函数1）si... 阅读全文

posted @ 2018-08-28 16:48 Siucaan 阅读(613) 评论(0) 推荐(0) 编辑

摘要： 1. 数据的预处理方法有哪些？常用的有白化，去均值，归一化和PCA。可参考这里。2.数据的归一化方法有哪些？常用的归一化方法：线性归一化和0均值标准化线性归一化将数据转换到[0,1]之间： Xnorm=X−XminXmax−Xmin" ... 阅读全文

posted @ 2018-08-28 16:40 Siucaan 阅读(269) 评论(0) 推荐(0) 编辑

摘要： 1.池化的作用是什么？（1） invariance(不变性)，这种不变性包括translation(平移)，rotation(旋转)，scale(尺度) （2）保留主要的特征同时减少参数(降维，效果类似PCA)和计算量，防止过拟合，提高模型泛化能力2.神经网络的损... 阅读全文

posted @ 2018-08-28 16:09 Siucaan 阅读(699) 评论(0) 推荐(0) 编辑

摘要： 1.SVM的基本思想间隔最大化来得到最优分离超平面。方法是将这个问题形式化为一个凸二次规划问题，还可以等价位一个正则化的合页损失最小化问题。SVM又有硬间隔最大化和软间隔SVM两种。这时首先要考虑的是如何定义间隔，这就引出了函数间隔和几何间隔的概念（这里只说思路），我... 阅读全文

posted @ 2018-08-28 15:44 Siucaan 阅读(745) 评论(0) 推荐(0) 编辑

摘要： 1. 决策树怎么做回归让所有节点求平均值。2. 熵、联合熵、条件熵、交叉熵、KL散度（相对熵），信息增益，互信息，信息增益率的计算简介：熵用于衡量不确定性，所以均分的时候熵最大 KL散度用于度量两个分布的不相似性，KL(p||q)等于交叉熵H(p,q)-熵H(p)。... 阅读全文

posted @ 2018-08-28 15:42 Siucaan 阅读(426) 评论(0) 推荐(0) 编辑

摘要： 1.衡量分类器的好坏（1）常用的指标：查准率 precision = TP/(TP+FP) = TP/~P （~p为预测为真的数量）召回率 recall = TP/(TP+FN) = TP/ P （2）F1 score F1值： 2/F1 = 1/recall +... 阅读全文

posted @ 2018-08-28 15:39 Siucaan 阅读(343) 评论(0) 推荐(0) 编辑

摘要： 1.二阶收敛为什么比一阶收敛更快？一阶收敛是以1/n的速度收敛，二阶收敛是以1/(n^2)的速度收敛，所以速度比较快。附：最优化问题中，牛顿法为什么比梯度下降法求解需要的迭代次数更少？直观上的理解：梯度下降法，确定了一个方向（负梯度方向），迭代点沿着这个方向走... 阅读全文

posted @ 2018-08-28 15:38 Siucaan 阅读(411) 评论(0) 推荐(0) 编辑

摘要： 1. 为什么要做特征选择？特征选择主要有两个功能： (1)减少特征数量、降维，使模型泛化能力更强，减少过拟合 (2)增强对特征和特征值之间的理解2. 常用的特征选择方法[这里](1)去掉取值变化小的特征针对特征值都是离散型变量； (2)单变量特征选择单变量特征选择... 阅读全文

posted @ 2018-08-28 15:37 Siucaan 阅读(778) 评论(0) 推荐(0) 编辑