交叉验证
摘要:交叉验证可分解为交叉和验证,两者都必不可少。 先讲讲较常见的cross-validation的例子 step 1: 将有标签的数据平均分为6份, D1, D2, D3, D4, D5, D6, 将D6设置成测试集,不参与任何的模型训练和参数选择,只用来评估最后模型的结果 step 2: 对所有想要测
阅读全文
朴素贝叶斯分类器Naive Bayes
摘要:优点Naive Bayes classifiers tend to perform especially well in one of the following situations: When the naive assumptions actually match the data (very
阅读全文
最大似然估计(Maximum likelihood estimation)
摘要:求可以让likelihood 达到最大的 就是说Y已经出现了,相应的X也有了,哪一个参数w可以让个Y出现的概率最大 找到这个w 让目标函数的导数等于0,来找到最大值的点
阅读全文
中心极限定理(为什么y服从高斯分布)
摘要:因为每一条数据都服从IID原则: 根据中心极限定理,当数据增加的时候,样本均值的分布慢慢变成正态分布 不管分布式什么分布,累加起来都是高斯分布 As sum increases, sum of non-Gaussian, finite variance variables is also Gauss
阅读全文
training set, validation set, test set的区别
摘要:training set: 用来训练模型 validation set : 用来做model selection test set : 用来评估所选出来的model的实际性能 我们知道,在做模型训练之前,我们必须选择所训练的模型的形式:线性模型(y = wx+b)或者非线性模型(SVM,decisi
阅读全文
偏置-方差分解(Bias-Variance Decomposition)
摘要:Bias-variance 分解是机器学习中一种重要的分析技术。 给定学习目标和训练集规模,它可以 把一种学习算法的期望误差分解为三个非负项的和,即本真噪音noise、bias和 variance noise 本真噪音是任何学习算法在该学习目标上的期望误差的下界; ( 任何方法都克服不了的误差) b
阅读全文
坐标下降(Coordinate descent)
摘要:坐标下降法属于一种非梯度优化的方法,它在每步迭代中沿一个坐标的方向进行线性搜索(线性搜索是不需要求导数的),通过循环使用不同的坐标方法来达到目标函数的局部极小值。
阅读全文
Sklearn使用教程
摘要:https://www.jianshu.com/p/6ada34655862
阅读全文
梯度下降法Gradient descent(最速下降法Steepest Descent)
摘要:最陡下降法(steepest descent method)又称梯度下降法(英语:Gradient descent)是一个一阶最优化算法。 函数值下降最快的方向是什么?沿负梯度方向 d=−gk
阅读全文
概率派VS贝叶斯派
摘要:机器学习中的MLE和MAP两大学派的争论: 频率学派 - Frequentist - Maximum Likelihood Estimation (MLE,最大似然估计): 频率学派认为世界是确定的,有一个本体,这个本体的真值是不变的,我们的目标就是要找到这个真值或真值所在的范围。 贝叶斯学派 -
阅读全文
PCA基本原理
摘要:降维问题的优化目标:将一组N维向量降维k维(K大于0,小于N),其目标是选择K个单位(模为1)正交基,使得原始数据变换到这组基上后, 选择然数据点之间方差最大的方向作为坐标轴 各字段两两间协方差为0,而字段的方差则尽可能大 为什么协方差为0的时候,连个点的关系最小? 协方差计算公式 由于上面我们已经
阅读全文
卷积神经网络基础
摘要:https://www.cnblogs.com/wj-1314/p/9754072.html 激活函数:常用的激活函数有sigmoid、tanh、relu等等,前两者sigmoid/tanh比较常见于全连接层,后者ReLU常见于卷积层 在卷积神经网络中,激活函数一般用ReLU(The Rectifi
阅读全文