机器学习基础
数据集:一组记录的集合
示例(样本,特征向量):数据集中的一条记录,关于一个事物或对象的描述
属性(特征):反应事物和对象在某方面的表现或性质
属性值:属性上的取值
属性空间(样本空间,输入空间):属性张成的空间
维度:每个示例具有的属性数
训练(学习):从数据中得到模型的过程
训练数据:训练过程使用的数据
训练样本:训练数据中的每个样本
训练集:训练样本组成的集合
假设:学得模型对应数据的某种潜在规律
真相(真实):这种潜在规律本身
结果:样本中,属性预测对应的结果
标记:结果的信息
样例:拥有标记结果的示例
标记空间(输出空间):所有标记的集合
分类:预测的结果是离散值
回归:预测的结果是连续值
聚类:将训练集分为若干组,这些自动形成的组可能对应潜在的概念划分
测试:学得模型后,使用其进行预测的过程
测试样本:被预测的样本
监督学习:训练数据拥有标记信息,分类、回归
无监督学习:训练数据没有标记信息,聚类
泛化:学得模型适应于新样本的能力。一般来说,训练样本越多,泛化能力越强。
版本空间:存在着一个与训练集一致的“假设集合”
归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好
浙公网安备 33010602011771号