机器学习之一——基本术语

1、一组记录的集合成为数据集。

2、关于一个事件或对象的描述,称为一个“实例”或“样本”也称“特征向量”,比如对于一只猫的描述{品种=?;毛色=?;体型=?;瞳色=?}。

3、反映事件或对象在某方面的表现或性质的事项例如猫的“毛色”,“瞳色”称为属性或特征。

4、属性上取值例如:“布偶猫”,“暹罗猫”,“折耳猫”描述属性的取值称为属性值。

5、属性上张成的空间称为“属性空间”,“样本空间”或“输入空间”。例如猫的三个属性作为三个坐标轴,则它们张成一个用于描述猫的三维空间,空间中的每个点对应每个样本。

6、每个示例由d个属性描述(例如:用于描述猫我们使用了3个属性,则d=3),d称为样本X的“维数”(dimensionality)。

7、从数据中学得模型的过程称为“学习”(learning)或“泛化”(training)。

8、训练过程中使用的数据称为“训练数据”(training data),其中每个样本称为一个“训练样本”,训练样本组成的集合称为训练集。学习得到的模型对应关于某种潜在的规则,称为“假设”,潜在规律自身,则称为“真相”或“真实”,学习和训练就是为了不断找出逼近真相的过程。

9、关于实例的结果信息,称为标记,比如{种类:布偶猫;毛色:全白;瞳色:绿色}可判断纯种.这个结果就是标记,标记的集合也称标记空间(label space)或称输出空间。如果标记是一个离散值如:纯种、串串。此类学习任务称为“分类”(classification),若预测的是连续的值如纯种的程度为:0.95、0.5、0.3则此类学习任务称为“回归”(regression)。其中分类中对于只涉及两个类别的称为“二分类”(binary classification),通常有一个“正类”(positive class)和“反类”(negative class);涉及多个类别时,则称为“多分类”(multi-class classification)任务。

eg:

回归一般表示如:

 y=2X+1(x>=0);

分类一般表示如:

y=-1 (x<0)


y=1 ( x>0 )

10、根据训练数据是否拥有标记信息,学习任务可划分为两大类:监督学习和无监督学习,分类和回归均属于前者,而聚类则属于后者。

11、学得模型适用于新的样本的能力称为“泛化能力”(generalization),具有强泛化能力的模型能很好的使用于整个样本空间。

12、假设空间

学习过程中可以看做是一个在所有假设(hypothesis)组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”(fit)的假设,即能够将训练集中的猫的血统判断正确的假设。

13、现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集的进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”,我们称之为“版本空间”。

14、机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”(inductive bias),或简称为“偏好”。

posted @ 2019-07-06 13:42  猪兜兜  阅读(151)  评论(0)    收藏  举报