机器学习（周志华）——学习笔记1

看了绪论，第一感觉就是“机器学习其实就是挑西瓜”/惊讶/惊讶

机器学习致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。在计算机系统中，“经验”通常以“数据”形式存在，因此，机器学习所研究的主要内容，是关于在计算机上从数据中产生“模型”（model）的算法，即“学习算法”（learning algorithm）。有了学习算法，我们把经验数据提供给它，它就能基于这些数据产生模型；在面对新情况时，模型就会给我们提供相应的判断。机器学习就是研究学习算法的学问。

模型：泛指从数据中学得的结果。部分文献中，模型指全局性结果（例如一棵决策树），而模式指局部性结果（例如一条规则）

2017.04.20更

一、基本术语

数据集（data set）：记录的集合

示例（instance）/样本（sample）：每条记录是关于一个事件或对象的描述，由于属性可以张成一个空间，每个对象可以在空间中找到自己的坐标位置，空间中每一个点又对应一个坐标向量，所以每一个示例也称为特征向量（feature vector）

属性（attribute）/特征（feature）：反应事件或对象在某方面的表现或性质的事项

属性值（attribute value）：属性上的取值

属性空间（attribute space）/样本空间（sample space）/输入空间：属性张成的空间

样例（example）：又有了标记信息的示例，这里的标记即label，也就是我们常说的标签。所有标记的集合，也称为“标记空间”（label space）或“输出空间”

分类（classification）:预测的是离散值

回归（regression）：预测的是连续值

学习（learning）/训练（training）：从数据中学得模型的过程。训练过程总使用的数据称为“训练数据”（training data）

，其中每一个样本称为“训练样本”（training sample），训练样本组成的集合称为“训练集”（training set）

测试（testing）：学得模型后，使用其进行预测的过程，被预测的样本称为“测试样本”（testing sample）

泛化（generalization）能力：学得的模型适用于新样本的能力

二、假设空间

归纳（induction）与演绎（deduction）是科学推理的两大基本手段。

1、归纳（induction）

从特殊到一般的“泛化”过程。即从具体的事实归结出一般性规律

从样例中学习显然是一个归纳的过程，所以也称为“归纳学习”（inductive learning）

2、演绎（deduction）

从一般到特殊的“特化”（specialization）过程。即从基础原理推演出具体的情况

posted on 2017-04-19 11:19 BoGummyYoung 阅读(931) 评论(0) 编辑收藏举报