《机器学习》第一次作业——第一至三章学习记录和心得

第一章、模式识别基本概念

1.什么是模式识别

模式识别划分为“分类”和“回归”两种形式

分类(Classification)

输出量是离散的类别表达，即输出待识别模式所属的类别二类/多类分类

回归(Regression)

输出量是连续的信号表达（回归值），输出量维度：单个/多个维度
回归是分类的基础：离散的类别值是由回归值做判别决策得到的。

模式识别

根据已有知识的表达，针对待识别模式，判别决策其所属的类别或者预测其对应的回归值。
模式识别本质上是一种推理（inference）过程。

2.模式识别的数学表达

数学解释

模式识别可以看做一种函数映射f(x)，将待识别模式x从输入空间映射到输出空间。函数f(x)是关于已有知识的表达。
注：f(x)可能是可解析表达的，也可能是不可解析表达的，其输出值可能是确定值也可能是概率值

输入空间

原始输入数据x所在的空间。
空间维度:输入数据的维度。

输出空间

输出的类别/回归值y所在的空间。
空间维度:1维、类别的个数(>2)、回归值的维度。

模型

关于已有知识的一种表达方式，即函数f(x)。
模型通过机器学习得到。

3.特征向量的相关性

点积

能够度量特征向量两两之间的相关性即识别模式之间是否相似。
可以表征两个特征向量的共线性，即方向上的相似程度。
点积为0，说明两个向量是正交的(orthogonal)。

投影

向量x到y的投影(projection)︰将向量x垂直投射到向量y方向上的长度（标量)。

投影的含义:向量x分解到向量y方向上的程度。能够分解的越多，说明两个向量方向上越相似。

残差向量

特征向量的欧氏距离

两个特征向量之间的欧式距离：表征两个向量之间的相似程度（综合考虑方向和模长）。

4.机器学习基本概念

训练样本

每个训练样本，都是通过采样得到的一个模式，即输入特征空间中的一个向量；通常是高维度（即𝑝很大），例如一幅图像。
训练样本可以认为是尚未加工的原始知识，模型则是经过学习（即加工整理归纳等）后的真正知识表达。
假设所有训练样本满足独立同分布。

线性模型

非线性模型

针对没有准确解的情况，我们使用目标函数（代价函数，损失函数）来优化解
针对无数解的情况，我们还需要在目标函数中加入能够体现对于参数解的约束条件，据此从无数个解中选出最优的一个解。
通过优化算法得出最优解，优化算法的目的是最小化或最大化目标函数

由上图可以看出，机器学习为模式识别提供模型，机器学习是学习的过程，模式识别的应用的过程

真值和标签

每个样本都有其对应的真正的输出值即为真值，在分类任务中真值称为标签，标注是对每个样本标出真值的过程，目前主要通过人工的方式来个样本进行标注

监督式学习（最常见）

训练样本及其输出真值都给定情况下的机器学习算法。
通常使用最小化训练误差作为目标函数进行优化。

无监督式学习

只给定训练样本、没有给输出真值情况下的机器学习算法。
无监督式学习算法的难度远高于监督式算法。
根据训练样本之间的相似程度来进行决策。
典型应用：聚类、图像分割

半监督式学习

既有标注的训练样本、又有未标注的训练样本情况下的学习算法。
典型应用：网络流数据

强化学习

机器自行探索决策、真值滞后反馈的过程。
典型应用：Alpha Go、CNN

5.模型的泛化能力

泛化能力就是学习算法对新模式的决策能力
训练得到的模型不仅要对训练样本具有决策能力，也要对新的（训练过程中未看见）的模式具有决策能力。
一个好的学习算法既能对现有模式做出好的识别，也能对其他模式做出好的识别。

训练集

模型训练所用的样本数据。集合中的每个样本称作训练样本。

测试集

测试模型性能所用的样本数据。集合中的每个样本称作测试样本。
测试样本也是假设从样本真实分布中独立同分布(iid）采样得到的。
测试集和训练集是互斥的，但假设是同分布的。

误差

误差（error）：模型（机器）给出的预测/决策输出与真值输出之间的差异。
训练误差(training error）：模型在训练集上的误差。
测试误差（test error）：模型在测试集上的误差。它反映了模型的泛化能力，也称作泛化误差。

过拟合

模型训练阶段表现很好，但是在测试阶段表现很差。
模型过于拟合训练数据。

提高泛化能力思路：不要过度训练。
方法：
选择复杂度适合的模型（tradeoff）：模型选择。
例如在多项式拟合中要选择合适的多项式阶数，能够减小误差。
正则化（regularization）：在目标函数中加入正则项。

通过调节正则系数，降低过拟合的程度

调节超参数

需要依据泛化误差，但又不能基于测试集。所以，从训练集中划分出一个验证集(validation set)，基于验证集调整选择超参数。

6.评估方法与性能指标

留出法

随机划分：将数据集随机分为两组：训练集和测试集。利用训练集训练模型，然后利用测试集评估模型的量化指标。
取统计值：为了克服单次随机划分带来的偏差，将上述随机划分进行若干次，取量化指标的平均值（以及方差、最大值等）作为最终的性能量化评估结果。

K折交叉验证

将数据集分割成K个子集，从其中选取单个子集作为测试集，其他K-1个子集作为训练集。
交叉验证重复K次，使得每个子集都被测试一次;将K次的评估值取平均，作为最终的量化评估结果。

留一验证

K折交叉验证的特例，即让K=样本数N
每次只取数据集中的一个样本做测试集，剩余的做训练集。
每个样本测试一次，取所有评估值的平均值作为最终评估结果。

性能衡量指标

二类分类：真阳性（TP），假阳性（FP），真阴性（TN），假阴性（FN）
多类分类：依次以单个类作为正类，其余为负类。

准确度（Accuracy）

将阳性和阴性综合起来度量识别正确的程度。

精度（Precision）

预测为阳性样本的准确程度。在信息检索领域，也称作查准率。

召回率（Recall）

也称作敏感度（sensitivity），全部阳性样本中被预测为阳性的比例。在信息检索领域也称作查全率。
精度高、同时召回率也高，说明模型性能越好。
但是，在有些情况下，精度和召回率是矛盾的。

F-Score

通过加权平均，同时考虑精度和召回率的性能衡量指标

设置a=1，得到F1-Score

曲线度量

可以设置若干个关于输出值的阈值，不同的阈值可以代表不同的应用任务，得到多个评估值，从而可以在指标空间画出一条曲线，从而得到评估指标的期望表征。

PR曲线

横轴：召回率（recall）
纵轴：精度（precision）
理想性能：右上角（1,1）处。
PR曲线越往右上凸，说明模型的性能越好。
绘制方法：
①根据模型的预测数值，对样本进行从高到低排序，排在前面的样本是正例的可能性更高。
②按此顺序逐个样本作为正例进行预测（或设置阈值截断正例和负
例），则每次可以计算一个召回率和精度。
③将这些值连成（拟合）一条曲线

ROC曲线

横轴：False positive rate (FPR)，度量所有阴性样本中被错误识别为阳性的比率。FPR=1-specificity。

纵轴：True positive rate (TPR)，即recall。度量所有阳性样本被识别为阳性的比例。
理想性能：左上角(0,1)处。
ROC曲线越往左上凸，说明模型的性能越好。
对角线：随机识别的ROC曲线。
绘制方法：与PR曲线相似。

两者比较

ROC曲线：对于各类别之间样本分布比例不敏感，因为FPR和TPR各自只跟真值为负或真值为正的样本相关。
PR曲线：对于各类别样本分布比例敏感，因为precision同时和真值正负的样本都相关。

曲线下方面积AUC

曲线下方面积(Area under the Curve, AUC)：将曲线度量所表达的信息浓缩到一个标量表达。
AUC = 1：是完美分类器，
0.5 < AUC < 1：优于随机猜测。这个模型妥善设定阈值的话，能有预测价值。
AUC = 0.5：跟随机猜测一样，模型没有预测价值。
AUC < 0.5：比随机猜测还差。