机器学习基础

数据集:一组记录的集合

示例(样本,特征向量):数据集中的一条记录,关于一个事物或对象的描述

属性(特征):反应事物和对象在某方面的表现或性质

属性值:属性上的取值

属性空间(样本空间,输入空间):属性张成的空间

维度:每个示例具有的属性数

 

训练(学习):从数据中得到模型的过程

训练数据:训练过程使用的数据

训练样本:训练数据中的每个样本

训练集:训练样本组成的集合

假设:学得模型对应数据的某种潜在规律

真相(真实):这种潜在规律本身

 

结果:样本中,属性预测对应的结果

标记:结果的信息

样例:拥有标记结果的示例

标记空间(输出空间):所有标记的集合

 

分类:预测的结果是离散值

回归:预测的结果是连续值

聚类:将训练集分为若干组,这些自动形成的组可能对应潜在的概念划分

 

测试:学得模型后,使用其进行预测的过程

测试样本:被预测的样本

 

监督学习:训练数据拥有标记信息,分类、回归

无监督学习:训练数据没有标记信息,聚类

 

泛化:学得模型适应于新样本的能力。一般来说,训练样本越多,泛化能力越强。

版本空间:存在着一个与训练集一致的“假设集合”

归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好

posted on 2018-03-08 10:08  米兰达莫西  阅读(168)  评论(0)    收藏  举报