机器学习-绪论

1. 基本术语

分为三个阶段:得到数据后,训练数据时,学得模型后

1.1 得到数据后

数据集:一组记录的集合

示例/样本:每条记录是关于一个事件或对象的描述

属性/特征:反映事件或对象在某方面的表现或性质的事项

属性值:属性上的取值

属性空间/样本空间/输入空间:属性张成的空间

特征向量:一个示例

1.2 训练数据时

学习/训练:在数据中学得模型的过程

训练数据:训练过程中使用的数据

训练样本:数据的每个样本

训练集:训练样本组成的集合

假设:学得模型对应于关于数据的某种潜在的规律

真相/事实:这种潜在规律自身

标记:关于示例结果的信息

样例:拥有了标记信息的示例

标记空间/输出空间:一般地,用(xi,yi)表示第i个样例,其中yi属于Y是xi的标记,Y是所有标记的集合,称为标记空间

分类:预测的是离散值

回归:预测的是连续值

1.3 学得模型后

测试:使用学得的模型进行预测的过程

测试样本:被预测的样本

监督学习:训练数据拥有标记信息(例如:分类,回归)

无监督学习:训练数据没有标记信息(例如:聚类)

泛化(generalization):学得模型适用于新样本的能力

独立同分布(i.i.d):通常假设样本空间中全体样本服从一个未知分布,我们获得的每个样本都是独立地从这个分布上采样获得的,即独立同分布.

2. 假设空间

归纳(induction):从特殊到一般的"泛化"过程

演绎(deduction):从一般到特殊的"特化"过程

归纳学习:从样例中学习

广义的归纳学习:大体相当于从样例中学习

狭义的归纳学习:从训练数据中学得概念,亦称为"概念学习"或"概念形成"

版本空间:可能有多个假设与训练集一致,即存在着一个与训练集一致的"假设集合",称之为"版本空间"

3. 归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好

奥卡姆剃刀(引导算法确立"正确的"偏好的一般性的原则):若有多个假设与观察一致,则选最简单的那个.

"没有免费的午餐"定理(NFL):学习算法的期望性能相同.

注意:NFL定理有一个重要前提:所有问题出现的机会相同或所有问题同样重要,但实际并不是这样.应该意识到脱离具体的问题,空泛地谈"什么学习算法更好"毫无意义.学习算法自身的归纳偏好与问题是否相配,往往起决定作用.

 

posted @ 2018-07-06 14:53  Sunshinehit  阅读(72)  评论(0)    收藏  举报