机器学习基本概念
1. 10折交叉验证:英文名是10-fold cross-validation,用来测试算法的准确性。是常用的测试方法。将数据集分成10份。轮流将其中的9份作为训练数据,1分作为测试数据,进行试验。每次试验都会得出相应的正确率(或差错率)。10次的结果的正确率(或差错率)的平均值作为对算法精度的估计,一般还需要进行多次10折交叉验证,在求其平均值,对算法的准确性进行估计。
2. 极大似然估计:极大似然估计,只是一种概率论在统计学中的应用,它是参数评估的方法之一。说的 已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计通过若干次实验,观察其结果,利用结果推出参数的大概值。极大似然估计是建立在这样的思想上的:已知某个参数能使这个样本出现的概率最大。我们当然不会再去选择其他其他小概率的样本,所以干脆就把这个参数作为估计的真实值。
3.后验概率: 信息论的基本概念之一。在一个通信系统中,在收到某个消息之后,接收端所了解到的该消息发送的概率称为后验证概率。后验概率是指在得到”结果 “的信息后重新修正的概率,如贝叶斯公式中的。是执果寻因的问题。后验概率和先验概率有着不可分割的联系,后验的计算要以先验概率为基础,其实说白了后验概率其实就是条件概率。
4.共线性:是指线性回归模型中的解释变量之间由于存在精确的相关关系或高度相关关系而使模型估计失真或难以估计。
5.归纳学习:从样例中学习是一个归纳过程,也叫归纳学习
6.假设空间:我们可以把学习过程看做一个在所有假设(hypothsis)组成的空间中进行搜索的过程,搜索的目标是找到与训练集“匹配”(fit)的假设。假设的表示一旦确定,假设空间及其规模大小就确定了。
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~