《机器学习》第一次作业——第一至三章学习记录和心得

第一章、模式识别基本概念

1.什么是模式识别

模式识别划分为“分类”和“回归”两种形式

分类(Classification)

输出量是离散的类别表达,即输出待识别模式所属的类别二类/多类分类

回归(Regression)

输出量是连续的信号表达(回归值),输出量维度:单个/多个维度
回归是分类的基础:离散的类别值是由回归值做判别决策得到的。

模式识别

根据已有知识的表达,针对待识别模式,判别决策其所属的类别或者预测其对应的回归值。
模式识别本质上是一种推理(inference)过程。

2.模式识别的数学表达

数学解释

模式识别可以看做一种函数映射f(x),将待识别模式x从输入空间映射到输出空间。函数f(x)是关于已有知识的表达。
注:f(x)可能是可解析表达的,也可能是不可解析表达的,其输出值可能是确定值也可能是概率值

输入空间

原始输入数据x所在的空间。
空间维度:输入数据的维度。

输出空间

输出的类别/回归值y所在的空间。
空间维度:1维、类别的个数(>2)、回归值的维度。

模型

关于已有知识的一种表达方式,即函数f(x)。
模型通过机器学习得到。

3.特征向量的相关性

点积

能够度量特征向量两两之间的相关性即识别模式之间是否相似。
可以表征两个特征向量的共线性,即方向上的相似程度。
点积为0,说明两个向量是正交的(orthogonal)。

投影

向量x到y的投影(projection)︰将向量x垂直投射到向量y方向上的长度(标量)。

投影的含义:向量x分解到向量y方向上的程度。能够分解的越多,说明两个向量方向上越相似。

残差向量

特征向量的欧氏距离

两个特征向量之间的欧式距离:表征两个向量之间的相似程度(综合考虑方向和模长)。

4.机器学习基本概念

训练样本

每个训练样本,都是通过采样得到的一个模式,即输入特征空间中的一个向量;通常是高维度(即𝑝很大),例如一幅图像。
训练样本可以认为是尚未加工的原始知识,模型则是经过学习(即加工整理归纳等)后的真正知识表达。
假设所有训练样本满足独立同分布。

线性模型

非线性模型

针对没有准确解的情况,我们使用目标函数(代价函数,损失函数)来优化解
针对无数解的情况,我们还需要在目标函数中加入能够体现对于参数解的约束条件,据此从无数个解中选出最优的一个解。
通过优化算法得出最优解,优化算法的目的是最小化或最大化目标函数

由上图可以看出,机器学习为模式识别提供模型,机器学习是学习的过程,模式识别的应用的过程

真值和标签

每个样本都有其对应的真正的输出值即为真值,在分类任务中真值称为标签,标注是对每个样本标出真值的过程,目前主要通过人工的方式来个样本进行标注

监督式学习(最常见)

训练样本及其输出真值都给定情况下的机器学习算法。
通常使用最小化训练误差作为目标函数进行优化。

无监督式学习

只给定训练样本、没有给输出真值情况下的机器学习算法。
无监督式学习算法的难度远高于监督式算法。
根据训练样本之间的相似程度来进行决策。
典型应用:聚类、图像分割

半监督式学习

既有标注的训练样本、又有未标注的训练样本情况下的学习算法。
典型应用:网络流数据

强化学习

机器自行探索决策、真值滞后反馈的过程。
典型应用:Alpha Go、CNN

5.模型的泛化能力

泛化能力就是学习算法对新模式的决策能力
训练得到的模型不仅要对训练样本具有决策能力,也要对新的(训练过程中未看见)的模式具有决策能力。
一个好的学习算法既能对现有模式做出好的识别,也能对其他模式做出好的识别。

训练集

模型训练所用的样本数据。集合中的每个样本称作训练样本。

测试集

测试模型性能所用的样本数据。集合中的每个样本称作测试样本。
测试样本也是假设从样本真实分布中独立同分布(iid)采样得到的。
测试集和训练集是互斥的,但假设是同分布的。

误差

误差(error):模型(机器)给出的预测/决策输出与真值输出之间的差异。
训练误差(training error):模型在训练集上的误差。
测试误差(test error):模型在测试集上的误差。它反映了模型的泛化能力,也称作泛化误差。

过拟合

模型训练阶段表现很好,但是在测试阶段表现很差。
模型过于拟合训练数据。

提高泛化能力思路:不要过度训练。
方法:
选择复杂度适合的模型(tradeoff):模型选择。
例如在多项式拟合中要选择合适的多项式阶数,能够减小误差。
正则化(regularization) :在目标函数中加入正则项。

通过调节正则系数,降低过拟合的程度

调节超参数

需要依据泛化误差,但又不能基于测试集。所以,从训练集中划分出一个验证集(validation set),基于验证集调整选择超参数。

6.评估方法与性能指标

留出法

随机划分:将数据集随机分为两组:训练集和测试集。利用训练集训练模型,然后利用测试集评估模型的量化指标。
取统计值:为了克服单次随机划分带来的偏差,将上述随机划分进行若干次,取量化指标的平均值(以及方差、最大值等)作为最终的性能量化评估结果。

K折交叉验证

将数据集分割成K个子集,从其中选取单个子集作为测试集,其他K-1个子集作为训练集。
交叉验证重复K次,使得每个子集都被测试一次;将K次的评估值取平均,作为最终的量化评估结果。

留一验证

K折交叉验证的特例,即让K=样本数N
每次只取数据集中的一个样本做测试集,剩余的做训练集。
每个样本测试一次,取所有评估值的平均值作为最终评估结果。

性能衡量指标

二类分类:真阳性(TP),假阳性(FP),真阴性(TN),假阴性(FN)
多类分类:依次以单个类作为正类,其余为负类。

准确度(Accuracy)

将阳性和阴性综合起来度量识别正确的程度。

精度(Precision)

预测为阳性样本的准确程度。在信息检索领域,也称作查准率。

召回率(Recall)

也称作敏感度(sensitivity),全部阳性样本中被预测为阳性的比例。在信息检索领域也称作查全率。
精度高、同时召回率也高,说明模型性能越好。
但是,在有些情况下,精度和召回率是矛盾的。

F-Score

通过加权平均,同时考虑精度和召回率的性能衡量指标


设置a=1,得到F1-Score

曲线度量

可以设置若干个关于输出值的阈值,不同的阈值可以代表不同的应用任务,得到多个评估值,从而可以在指标空间画出一条曲线,从而得到评估指标的期望表征。

PR曲线

横轴:召回率(recall)
纵轴:精度(precision)
理想性能:右上角(1,1)处。
PR曲线越往右上凸,说明模型的性能越好。
绘制方法:
①根据模型的预测数值,对样本进行从高到低排序,排在前面的样本是正例的可能性更高。
②按此顺序逐个样本作为正例进行预测(或设置阈值截断正例和负
例),则每次可以计算一个召回率和精度。
③将这些值连成(拟合)一条曲线

ROC曲线

横轴:False positive rate (FPR),度量所有阴性样本中被错误识别为阳性的比率。FPR=1-specificity。

纵轴:True positive rate (TPR),即recall。度量所有阳性样本被识别为阳性的比例。
理想性能:左上角(0,1)处。
ROC曲线越往左上凸,说明模型的性能越好。
对角线:随机识别的ROC曲线。
绘制方法:与PR曲线相似。

两者比较

ROC曲线:对于各类别之间样本分布比例不敏感,因为FPR和TPR各自只跟真值为负或真值为正的样本相关。
PR曲线:对于各类别样本分布比例敏感,因为precision同时和真值正负的样本都相关。

曲线下方面积AUC

曲线下方面积(Area under the Curve, AUC):将曲线度量所表达的信息浓缩到一个标量表达。
AUC = 1:是完美分类器,
0.5 < AUC < 1:优于随机猜测。这个模型妥善设定阈值的话,能有预测价值。
AUC = 0.5:跟随机猜测一样,模型没有预测价值。
AUC < 0.5:比随机猜测还差。

第二章、基于距离的分类器

1.基于距离分类的基本概念

基于距离的决策

把测试样本到每个类之间的距离作为决策模型,将测试样本判定为与其距离最近的类。
该技术是初级的模式识别技术,是其它识别决策技术的基础。

判别公式

类的原型

用来代表这个类的一个模式或者一组量,便于计算该类和测试样本之间的距离。
可以使用该类中所有训练样本的均值作为类的原型,均值是对类中所有训练样本代表误差最小的一种表达方式。

最近邻

从一类的训练样本中,选取与测试样本距离最近的一个训练样本,作为该类的原型。类的原型取决于测试样本。

缺陷

对类的表达误差较大。
对噪声和异常样本比较敏感。

常见距离度量

MED分类器

最小欧式距离分类器(Minimum Euclidean Distance Classifier)
距离衡量:欧氏距离
类的原型:均值

二分类问题中,它的边界决策方程是:

在高维空间中,该决策边界是一个超平面,且该平面垂直且二分连接两个类原型的线。
MED分类器采用欧氏距离作为距离度量,没有考虑特征变化的不同及特征之间的相关性。这个时候我们要进行特征白化。

2.特征白化

目的

将原始特征映射到一个新的特征空间,使得在新空间中特征的协方差矩阵为单位矩阵,从而去除特征变化的不同及特征之间的相关性。
将特征转换分为两步:先去除特征之间的相关性(解耦, Decoupling),然后再对特征进行尺度变换(白化, Whitening),使每维特征的方差相等。

3.MICD分类器

最小类内距离分类器(Minimum Intra-class Distance Classifier),基于马氏距离的分类器。
距离度量:马氏距离
类的原型:均值

判别公式

马氏距离的属性

MICD分类器的决策边界

对于二类分类而言,MICD分类器的决策边界位于到两个类的距离相等的面上,即:

MICD分类器的问题

第三章、贝叶斯决策与学习

1.贝叶斯决策与MAP分类器

后验概率

该条件概率称作后验概率,表达给定模式𝒙属于类𝐶𝑖可能性。
决策方法:

后验概率计算公式:

其中

表示所有类别样本x的边缘概率

MAP分类器

最大后验概率(Maximum posterior probability,MAP)分类器:将测试样本决策分类给后验概率最大的那个类。

决策边界

MAP分类器决策目标:最小化概率误差,即分类误差最小化。

给定所有测试样本,MAP分类器选择后验概率最大的类,等于最小化平均概率误差,即最小化决策误差。

2.高斯观测概率

3.决策风险

贝叶斯决策可能出现错误判断,从而带来决策风险,不同的错误判断会带来不同的风险,定义损失(loss)来表示风险程度

posted @ 2021-05-05 12:06  lbiao  阅读(234)  评论(0编辑  收藏  举报