看了绪论,第一感觉就是“机器学习其实就是挑西瓜”/惊讶/惊讶

机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”(model)的算法,即“学习算法”(learning algorithm)。有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型;在面对新情况时,模型就会给我们提供相应的判断。机器学习就是研究学习算法的学问。

模型:泛指从数据中学得的结果。部分文献中,模型指全局性结果(例如一棵决策树),而模式指局部性结果(例如一条规则)

2017.04.20更

一、基本术语

数据集(data set):记录的集合

示例(instance)/样本(sample):每条记录是关于一个事件或对象的描述,由于属性可以张成一个空间,每个对象可以在空间中找到自己的坐标位置,空间中每一个点又对应一个坐标向量,所以每一个示例也称为特征向量(feature vector)

属性(attribute)/特征(feature):反应事件或对象在某方面的表现或性质的事项

属性值(attribute value):属性上的取值

属性空间(attribute space)/样本空间(sample space)/输入空间:属性张成的空间

样例(example):又有了标记信息的示例,这里的标记即label,也就是我们常说的标签。所有标记的集合,也称为“标记空间”(label space)或“输出空间”

分类(classification):预测的是离散值

回归(regression):预测的是连续值

学习(learning)/训练(training):从数据中学得模型的过程。训练过程总使用的数据称为“训练数据”(training data)

,其中每一个样本称为“训练样本”(training sample),训练样本组成的集合称为“训练集”(training set)

测试(testing):学得模型后,使用其进行预测的过程,被预测的样本称为“测试样本”(testing sample)

泛化(generalization)能力:学得的模型适用于新样本的能力

二、假设空间

归纳(induction)与演绎(deduction)是科学推理的两大基本手段。

1、归纳(induction)

从特殊到一般的“泛化”过程。即从具体的事实归结出一般性规律

从样例中学习  显然是一个归纳的过程,所以也称为“归纳学习”(inductive learning)

2、演绎(deduction)

从一般到特殊的“特化”(specialization)过程。即从基础原理推演出具体的情况

 

posted on 2017-04-19 11:19  BoGummyYoung  阅读(931)  评论(0编辑  收藏  举报