机器学习基础

数据集：一组记录的集合

示例（样本，特征向量）：数据集中的一条记录，关于一个事物或对象的描述

属性（特征）：反应事物和对象在某方面的表现或性质

属性值：属性上的取值

属性空间（样本空间，输入空间）：属性张成的空间

维度：每个示例具有的属性数

训练（学习）：从数据中得到模型的过程

训练数据：训练过程使用的数据

训练样本：训练数据中的每个样本

训练集：训练样本组成的集合

假设：学得模型对应数据的某种潜在规律

真相（真实）：这种潜在规律本身

结果：样本中，属性预测对应的结果

标记：结果的信息

样例：拥有标记结果的示例

标记空间（输出空间）：所有标记的集合

分类：预测的结果是离散值

回归：预测的结果是连续值

聚类：将训练集分为若干组，这些自动形成的组可能对应潜在的概念划分

测试：学得模型后，使用其进行预测的过程

测试样本：被预测的样本

监督学习：训练数据拥有标记信息，分类、回归

无监督学习：训练数据没有标记信息，聚类

泛化：学得模型适应于新样本的能力。一般来说，训练样本越多，泛化能力越强。

版本空间：存在着一个与训练集一致的“假设集合”

归纳偏好：机器学习算法在学习过程中对某种类型假设的偏好

posted on 2018-03-08 10:08 米兰达莫西阅读(172) 评论(0) 收藏举报

刷新页面返回顶部