摘要: 1. lr里面公式为什么用e?在线性回归中,我们用模型的预测值y^" role="presentation">ŷ y^逼近样本的真实值y,相当于让wTx+b" role="presentation">wTx+bwTx+b逼近y。 但是在实际应用中,我们... 阅读全文
posted @ 2018-08-28 16:51 Siucaan 阅读(397) 评论(0) 推荐(0) 编辑
摘要: 1.为什么引入非线性激励函数?因为如果不用非线性激励函数,每一层都是上一层的线性函数,无论神经网络多少层,输出都是输入的线性组合,与只有一个隐藏层效果一样。相当于多层感知机了。所以引入非线性激励函数,深层网络就变得有意义了,可以逼近任意函数。2.常用的激励函数1)si... 阅读全文
posted @ 2018-08-28 16:48 Siucaan 阅读(613) 评论(0) 推荐(0) 编辑
摘要: 1. 数据的预处理方法有哪些?常用的有白化,去均值,归一化和PCA。 可参考这里。2.数据的归一化方法有哪些?常用的归一化方法:线性归一化和0均值标准化 线性归一化将数据转换到[0,1]之间: Xnorm=X−XminXmax−Xmin" ... 阅读全文
posted @ 2018-08-28 16:40 Siucaan 阅读(269) 评论(0) 推荐(0) 编辑
摘要: 1.池化的作用是什么?(1) invariance(不变性),这种不变性包括translation(平移),rotation(旋转),scale(尺度) (2) 保留主要的特征同时减少参数(降维,效果类似PCA)和计算量,防止过拟合,提高模型泛化能力2.神经网络的损... 阅读全文
posted @ 2018-08-28 16:09 Siucaan 阅读(699) 评论(0) 推荐(0) 编辑
摘要: 1.SVM的基本思想间隔最大化来得到最优分离超平面。方法是将这个问题形式化为一个凸二次规划问题,还可以等价位一个正则化的合页损失最小化问题。SVM又有硬间隔最大化和软间隔SVM两种。这时首先要考虑的是如何定义间隔,这就引出了函数间隔和几何间隔的概念(这里只说思路),我... 阅读全文
posted @ 2018-08-28 15:44 Siucaan 阅读(745) 评论(0) 推荐(0) 编辑
摘要: 1. 决策树怎么做回归让所有节点求平均值。2. 熵、联合熵、条件熵、交叉熵、KL散度(相对熵),信息增益,互信息,信息增益率的计算简介: 熵用于衡量不确定性,所以均分的时候熵最大 KL散度用于度量两个分布的不相似性,KL(p||q)等于交叉熵H(p,q)-熵H(p)。... 阅读全文
posted @ 2018-08-28 15:42 Siucaan 阅读(426) 评论(0) 推荐(0) 编辑
摘要: 1.衡量分类器的好坏(1)常用的指标: 查准率 precision = TP/(TP+FP) = TP/~P (~p为预测为真的数量) 召回率 recall = TP/(TP+FN) = TP/ P (2)F1 score F1值: 2/F1 = 1/recall +... 阅读全文
posted @ 2018-08-28 15:39 Siucaan 阅读(343) 评论(0) 推荐(0) 编辑
摘要: 1.二阶收敛为什么比一阶收敛更快?一阶收敛是以1/n的速度收敛,二阶收敛是以1/(n^2)的速度收敛,所以速度比较快。 附:最优化问题中,牛顿法为什么比梯度下降法求解需要的迭代次数更少? 直观上的理解:梯度下降法,确定了一个方向(负梯度方向),迭代点沿着这个方向走... 阅读全文
posted @ 2018-08-28 15:38 Siucaan 阅读(411) 评论(0) 推荐(0) 编辑
摘要: 1. 为什么要做特征选择?特征选择主要有两个功能: (1)减少特征数量、降维,使模型泛化能力更强,减少过拟合 (2)增强对特征和特征值之间的理解2. 常用的特征选择方法[这里](1)去掉取值变化小的特征 针对特征值都是离散型变量; (2)单变量特征选择 单变量特征选择... 阅读全文
posted @ 2018-08-28 15:37 Siucaan 阅读(778) 评论(0) 推荐(0) 编辑