《机器学习》第一次作业——第一至三章学习记录和心得

《机器学习》第一次作业——第一至三章学习记录和心得

《机器学习》第一次作业——第一至三章学习记录和心得

第一章:模式识别的基本概念

1.模式识别的应用实例

  • 字符识别:计算机视觉领域
    例:手写体字符识别:OCR
  • 交通标志识别:计算机视觉领域
    例:交通标志识别:辅助/无人驾驶
  • 动作识别:计算机视觉领域
    例:动作识别
  • 语音识别:人机交互领域
    例:语音识别
  • 模式识别:医学领域
    例:心跳异位搏动识别
  • 应用程序识别:网络领域
    例:应用程序识别(基于TCP/IP流量)
  • 模式识别:金融领域
    例:银行信贷识别 股票价格预测
  • 目标抓取:机器人领域
    例:机械手目标抓取点位姿
  • 无人驾驶:无人车领域

2.模式识别的基本定义

根据任务,模式识别可以划分为“分类”和“回归”两种形式

分类(Classification):1.输出量是离散的类别表达,即输出待识别模式所属的类别。2.二类/多类分类
回归(Regression):1.输出量是连续的信号表达(回归值)2.输出量维度:单个/多个维度3.回归是分类的基础:离散的类别值是由回归值做判别决策得到的

模式识别(一种推理过程):根据已有知识的表达,针对待识别模式,判别决策其所属的类别或者预测其对应的回归值

3.模式识别数学解释:函数映射

输入与输出空间


输入空间的空间维度:输入数据的空间维度
输出空间的空间维度:一维,回归值的空间维度

4.模型:关于已有知识的一种表达方式f(x)

回归模型组成:
1.特征提取(feature extraction):从原始输入数据提取更有效的信息
2.回归器(regressor):将特征映射到回归值

分类模型组成:
1.特征提取+回归器+判别函数(广义)/特征提取+回归器(狭义)
2.分类器(classifier):回归器+判别函数。

判别函数

sign函数:判断回归值大于0还是小于0(二类分类)
max函数:取最大的回归值所在维度对应的类别(多类分类)

判别公式&决策边界


决策边界:f(x)=0
判别公式:

5.特征和特征空间

定义

特征:可以用于区分不同类别模式的、可测量的量
鲁棒性:针对不同的观测条件,仍能够有效表达类别之间的差异性
特征向量:多个特征构成的向量

特征空间:每个坐标轴代表一维特征; 空间中的每个点代表一个模式(样本);从坐标原点到任意一点(模式)之间的向量即为该模式的特征向量。

、特征向量的相关性

点积;两个特征向量的共线性,即方向上的相似程度,为0,两个向量正交

投影:向量x到y的投影,越大表示越相似



残差向量

向量x分解到y上得到的投影向量与x的误差

欧氏距离

两个特征向量之间的欧式距离:表征两个向量之间的相似程度(综合考虑方向和模长)

6.机器学习

训练样本

一组训练样本(数据),记作{Xn}

线性模型:模型结构是线性的(直线、面、超平面)适用于数据是线性可分/线性表达的数据

非线性模型:(非线性模型)模型结构是非线性的(曲线、曲面、超曲面)


样本量/模型参数量
训练样本个数=模型参数个数(𝑁 = 𝑀):参数有唯一的解。
训练样本个数 ≫ 模型参数个数( 𝑁 ≫ 𝑀 ):没有准确的解。
训练样本个数≤模型参数个数(𝑁 ≪ 𝑀 ):无数个解/无解
目标函数:
当𝑁 ≪ 𝑀时,需要额外添加一个标准(目标函数),通过优化该标准来确定一个近似解。
当 𝑁 ≫ 𝑀时,还需要在目标函数中加入能够体现对于参数解的约束条件,据此从无数个解中选出最优的一个解
优化算法:最小化或最大化目标函数的技术

机器学习流程示意图

基本定义

  • 真值(ground truth):针对每个训练样本𝒙𝑛,其对应的真实正确的输出值,记作𝒕𝑛。
  • 标签(label):对于分类任务,真值又称作标签。
  • 通常,每个真值是一个向量𝒕𝑛 。二类分类:真值是一个标量𝑡𝑛 。
  • 标注(labeling):给每个训练样本标出真值的过程。目前,主要由人工完成。
  • 标注的样本(labeled samples):有提供真值的样本。
  • 未标注的样本(unlabeled samples):没有提供真值的样本
  • 监督式学习:训练样本及其输出真值都给定,通常使用最小化训练误差作为目标函数进行优化
  • 无监督式学习:只给定训练样本、没有给输出真值,无监督式学习算法的难度远高于监督式算法。常应用于:聚类,图像分割
    无监督式学习算法的难度远高于监督式算法
  • 半监督式学习:既有标注的训练样本、又有未标注的训练样本,看做有约束条件的无监督式学习问题:标注过的训练样本用作约束条件
    典型应用:网络流数据
  • 强化学习:(机器自行探索决策、真值滞后反馈的过程)有些任务需要先后累积多次决策动作才能知道最终结果好坏,很难针对单次决策给出对应的真值,例如,棋类游戏

7.模型的泛化能力

泛化能力:学习算法对新模式的决策能力

训练集与测试集

训练集(training set):模型训练所用的样本数据。集合中的每个样本称作训练样本。
测试集(test set):测试模型性能所用的样本数据。集合中的每个样本称作测试样本。
测试样本也是假设从样本真实分布中独立同分布(iid)采样得到的。测试集和训练集是互斥的,但假设是同分布的。

训练误差与测试误差

误差(error):模型(机器)给出的预测/决策输出与真值输出之间的差异。
训练误差(training error):模型在训练集上的误差。
测试误差(test error):模型在测试集上的误差。它反映了模型的泛化能力,也称作泛化误差

泛化能力

训练得到的模型不仅要对训练样本具有决策能力,也要对新的(训练过程中未看见)的模式具有决策能力
训练样本存在的问题:训练样本稀疏:给定的训练样本数量是有限的(即有限采样),很难完整表达样本真实分布。
训练样本采样过程可能不均匀:有些区域采样密一些,有些区域采样稀疏一些。
一些训练样本可能带有噪声。

过拟合(泛化能力低的表现)模型训练阶段表现很好,但是在测试阶段表现很差。模型过于拟合训练数据

如何提高泛化能力:不要过度训练。
方法:选择复杂度适合的模型(tradeoff):模型选择。正则化(regularization) :在目标函数中加入正则项
通过调节正则系数,降低过拟合的程度

调节超参数

8.评估方法与性能指标

评估方法

留出法:
随机划分:将数据集随机分为两组:训练集和测试集。利用训练集训练模型,然后利用测试集评估模型的量化指标。
取统计值:为了克服单次随机划分带来的偏差,将上述随机划分进行若干次,取量化指标的平均值(以及方差、最大值等)作为最终的性能量化评估结果。

K折交叉验证:
将数据集分割成K个子集,从其中选取单个子集作为测试集,其他K-1个子集作为训练集。交叉验证重复K次,使得每个子集都被测试一次;将K次的评估值取平均,作为最终的量化评估结果。
留一验证:每次只取数据集中的一个样本做测试集,剩余的做训练集。每个样本测试一次,取所有评估值的平均值作为最终评估结果。等同于K折交叉验证,K为数据集样本总数

性能指标度量

对于回归任务:测试误差。
二类分类:真阳性(TP),假阳性(FP),真阴性(TN),假阴性(FN)
多类分类:依次以单个类作为正类,其余为负类

准确度::将阳性和阴性综合起来度量识别正确的程度,如果阳性和阴性样本数量比例失衡,该指标很难度量识别性能


精度(Precision):预测为阳性样本的准确程度。在信息检索领域,也称作查准率。
召回率(Recall):也称作敏感度(sensitivity),全部阳性样本中被预测为阳性的比例。在信息检索领域也称作查全率。
精度高、同时召回率也高,说明模型性能越好


混淆矩阵:矩阵的列代表预测值,行代表真值。矩阵中每个元素的值是根据每个测试样本的预测值和真值得到的计数统计值。对角线元素的值越大,表示模型性能越好。
曲线度量
PR曲线(Precision-Recall Curve):横轴:召回率(recall)纵轴:精度(precision)理想性能:右上角(1,1)处。PR曲线越往右上凸,说明模型的性能越好。
ROC曲线(Receiver-operating-characteristic curve):横轴:False positive rate (FPR),度量所有阴性样本中被错误识别为阳性的比率。FPR=1-specificity。纵轴:True positive rate (TPR),即recall。度量所有阳性样本被识别为阳性的比例。
理想性能:左上角(0,1)处。ROC曲线越往左上凸,说明模型的性能越好。对角线:随机识别的ROC曲线。

AUC:曲线下方面积(Area under the Curve, AUC):将曲线度量所表达的信息浓缩到一个标量表达。

  • AUC = 1:是完美分类器,
  • 0.5 < AUC < 1:优于随机猜测。这个模型妥善设定阈值的话,能有预测价值。
  • AUC = 0.5:跟随机猜测一样,模型没有预测价值。
  • AUC < 0.5:比随机猜测还差。

第二章:基于距离的分类器

1.MED分类器

基本概念

基于距离的决策:把测试样本到每个类之间的距离作为决策模型,将测试样本判定为与其距离最近的类
把测试样本到每个类之间的距离作为决策模型,将测试样本判定为与其距离最近的类.
判别公式:


类的原型:用来代表这个类的一个模式或者一组量,便于计算该类和测试样本之间的距离


均值:该类中所有训练样本的均值作为类的原型

最近邻:从一类的训练样本中,选取与测试样本距离最近的一个训练样本,作为该类的原型。类的原型取决于测试样本。 缺陷:对类的表达误差较大。对噪声和异常样本比较敏感。

MED分类器:最小欧式距离分类器

距离衡量:欧氏距离
类的原型:均值

对于2个类而言,MED分类器的决策边界方程为

MED分类器的决策边界

MED分类器的问题:MED分类器采用欧氏距离作为距离度量,没有考虑特征变化的不同及特征之间的相关性。
解决方法:去除特征变化的不同及特征之间的相关性。

2. 特征白化

特征正交白化:将原始特征映射到一个新的特征空间,使得在新空间中特征的协方差矩阵为单位矩阵,从而去除特征变化的不同及特征之间的相关性。


将特征转换分为两步:先去除特征之间的相关性(解耦, Decoupling),然后再对特征进行尺度变换(白化, Whitening),使每维特征的方差相等。





特征解耦


特征白化

3.MICD分类器

定义:

  • 最小类内距离分类器(Minimum Intra-class Distance Classifier),基于马氏距离的分类器
  • 距离度量:马氏距离
  • 类的原型:均值
  • 判别公式:
    马氏距离的属性



MICD分类器的决策边界

对于二类分类而言,MICD分类器的决策边界位于到两个类的距离相等的面上






MICD分类器的缺陷是会选择方差较大的类

第三章:贝叶斯决策与学习

1.贝叶斯决策与MAP分类器

MICD分类器的问题:当两个类均值一样时,MICD偏向于方差大的类。
在此种情况,决策真值应该是倾向方差小(分布紧致)的类。
基于距离的决策:
仅考虑每个类别各自观测到的训练样本的分布情况,例如,均值(MED分类器)和协方差(MICD分类器)。
没有考虑类的分布等先验知识,例如,类别之间样本数量的比例,类别之间的相互关系

随机性:每个样本是一次随机采样,样本个体具有随机性。
机器学习所要做的是:反复观测采样,找出数据蕴含的概率分布规律。
推理决策:根据学习出来的概率分布规律来做决定。
概率:通常用来表达事物处于每种取值状态的可能性。
每维特征构成一个随机变量,其概率分布由两个元素组成:该特征的取值空间(连续或者离散)。在该特征维度上,样本处于各个取值状态的可能性
从概率的观点看,给定一个测试模式𝒙,决策其属于哪个类别
需要依赖于如下条件概率:

  • 输入模式𝒙 :随机变量(单维特征)或向量(高维特征)。
  • 类别输出𝑪:随机变量,取值是所有类别标签

基于贝叶斯规则(Bayes rule),已知先验概率和观测概率,
模式𝒙属于类𝐶𝑖后验概率的计算公式为:

p(Ci):类𝐶𝑖的先验概率(prior);
p(𝒙|𝐶𝑖):观测似然概率(observation likelihood);
𝑝 𝒙 = 𝑝(𝒙|𝑐𝑗)𝑝(𝑐𝑗) = σ𝑗 𝑝(𝒙, 𝐶𝑗):所有类别样本𝒙的边缘概率(marginal probability)

加入先验后,相较于观测,后验概率产生了迁移

MAP分类器

最大后验概率分类器:将测试样本决策分类给后验概率最大的那个类
对于二类分类而言,MAP分类器的决策边界位于

单维空间:通常有两条决策边界;高维空间:复杂的非线性边界

MAP分类器的决策误差

给定一个测试样本𝑥,MAP分类决策产生的误差可以用概率误差表达,概率误差等于未选择的类所对应的后验概率

给定所有测试样本(𝑁为样本个数),分类决策产生的平均概率误差为:
样本的概率误差的均值

MAP分类器决策目标:最小化概率误差,即分类误差最小化

给定所有测试样本,MAP分类器选择后验概率最大的类,等于最小化平均概率误差,即最小化决策误差

MAP分类器:高斯观测概率

MAP分类器需要使用先验概率和观测概率
观测似然概率为一维高斯分布,其分布函数为

决策边界

当𝜎𝑖 = 𝜎𝑗 = σ 时,决策边界是线性的,只有一条

决策边界的方程表达为

如果𝜇𝑖 < 𝜇𝑗,且𝑃 𝐶𝑖 < 𝑃 𝐶𝑗 ,则𝛿 < 0:说明:在方差相同的情况下,MAP决策边界偏向先验可能性较小的类,即分类器决策偏向先验概率高的类
当𝜎𝑖 ≠ 𝜎𝑗时,决策边界有两条(即非线性边界):该决策方程是关于𝒙的二次型函数,当𝜎𝑖 > 𝜎𝑗且先验概率相等时,𝛿 > 0,分类器倾向选择𝐶𝑗类,即方差较小的类

三种分类器比较

高维高斯分布

概率密度函数:

决策边界是一个超二次型,但始终是偏移MICD决策边界如下距离

3.决策风险与贝叶斯分类器

损失

在推测试阶段,分类器并不知道其输出的决策是否正确。定义一个惩罚量,用来表征当前决策动作相对于其他候选类别的风险程度,即损失(loss)。
假设分类器把测试样本𝒙决策为𝐶𝑖类,这个决策动作记作𝛼𝑖。假设该测试样本𝒙 的真值是属于𝐶𝑗类,决策动作𝛼𝑖对应的损失可以表达为:𝜆(𝛼𝑖|𝐶𝑗),简写为𝜆𝑖𝑗。
针对所有决策动作和候选类别,可以用一个矩阵来表示对应的损失值

决策风险的评估

给定一个测试样本𝒙 ,分类器决策其属于𝐶𝑖类的动作α𝑖对应的决策风险可以定义为相对于所有候选类别的期望损失,记作𝑅(𝛼𝑖|𝒙)

贝叶斯分类器:在MAP分类器基础上,加入决策风险因素
决策损失
决策目标:期望损失最小化

朴素贝叶斯分类器

拒绝选项:为了避免出现错误决策,分类器可以选择拒绝。
阈值τ :当τ = 1,所有样本的任何决策都会被拒绝。
当τ < 1/𝐾,所有样本的决策都不会被拒绝,K是类别的个数

4.最大似然估计

监督式学习:

(1)参数化方法:给定概率分布的解析表达,学习这些解析表达函数中的参数。该类方法也称为参数估计。

  • 最大似然估计
  • 贝叶斯估计
    (2)非参数化方法:概率密度函数形式未知,基于概率密度估计技术,估计非参数化的概率密度表达

观测概率估计:高斯分布

待学习的参数:如果观测似然概率服从高斯分布,待学习的参数包含该高斯分布的均值𝝁和协方差𝚺
均值估计
协方差估计

5.最大似然的估计偏差

无偏估计:一个参数的估计量的数学期望是该参数的真值
无偏估计意味着只要训练样本个数足够多,该估计值就是参数的真实值
均值的最大似然估计:是无偏估计
协方差的最大似然估计:是有偏估计
当N足够大时,最大似然估计可以看做是一个较好的估计
在实际计算中,可以通过将训练样本的协方差乘以𝑁/(𝑁 − 1)来修正协方差的估计值

6.贝叶斯估计

定义

贝叶斯估计:给定参数𝜃分布的先验概率以及训练样本,估计参数θ分布的后验概率。
参数的后验概率:

参数(高斯均值)先验概率
参数后验概率

参数(高斯均值)的后验概率分析


给定𝐶𝑖类的𝑁𝑖个训练样本,参数θ概率分布的均值等于训练样本均值和该参数先验概率均值的加权和。
给定𝐶𝑖类的𝑁𝑖个训练样本,参数θ概率分布的方差是由𝐶𝑖类观测似然分布的方差、该参数的先验概率方差、𝐶𝑖类的样本个数共同决定
当𝑁𝑖足够大时,样本均值m就是参数θ的无偏估计
参数先验对后验的影响

如果参数的先验方差𝜎0 = 0,则𝜇𝜃 → 𝜇0,意味先验的确定性较大,先验均值的影响也更大,使得后续训练样本的不断进入对参数估计没有太多改变。
如果参数的先验方差𝜎0 ≫ 𝜎,则𝜇𝜃 → 𝑚,意味着先验的确定性非常小。刚开始由于样本较少,导致参数估计不准。随着样本的不断增加,后验均值会逼近样本均值。

贝叶斯估计具备不断学习的能力

问题:参数后验概率如何用于MAP分类
观测似然概率可以看做是关于𝑥的高斯分布

贝叶斯估计与最大似然估计区别:贝叶斯估计则是把𝜃当做是一个隐随机变量,有多种取值的可能性,所以需要求取关于𝜃的边缘概率,以此来得到观测似然。最大似然估计有明确的目标函数,通过优化技术来求取𝜃ml

7.无参数概率密度估计

常用的无参数技术主要有:

  • K近邻法(K-nearest neighbors)
  • 直方图技术(Histogram technique)
  • 核密度估计(Kernel density estimation)

KNN估计

给定𝑁个训练样本,在特征空间内估计每个任意取值𝒙的概率密度,即估计以𝒙为中心、在极小的区域𝑅 = (𝒙, 𝒙 + 𝛿𝒙) 内的概率密度函数𝑝(𝒙) 。
无参数估计的任务: 估计概率𝑝(𝒙) 。
对于任意一个模式𝒙 ,其落入区域𝑅的概率𝑃可以表达为

如果区域𝑅足够小,𝑃是𝑝(𝒙)的平滑版本,可以用来估计𝑝(𝒙) 但是,由于𝑁非常大,区域𝑅内可能不止落入𝒙一个模式!
 因此,𝑘个样本落在区域𝑅的概率密度可以用二项分布来表达


𝑘个样本落在区域𝑅的概率密度

当𝑁非常大时,我们可以用二项分布的均值来近似表达𝑘的分布: 𝑘 → 𝜇𝑘
当𝑁非常大时,可以得到𝑃的近似估计:P=K/N
𝑝(𝒙)的近似估计P=K/(NV):
把V当做训练样本的函数。区域𝑅以𝒙为中心,并不断扩张到可以囊括𝑘个训练样本,即𝑘是训练样本个数𝑁的函数。

  • 如果概率密度在𝒙附近很高,则会有较多的训练样本落在𝒙附近,则𝑉较小;
  • 如果概率密度在𝒙附近很低,则会有较少的训练样本落在𝒙附近,则𝑉较大。
    K近邻(k-nearest neighbor, KNN)估计:给定𝒙,找到其对应的区域𝑅使其包含𝑘个训练样本,以此计算𝑝 (𝒙) 。
  • 第𝑘个样本与𝒙的距离记作𝑑𝑘 𝒙 ,则体积𝑉 = 2𝑑𝑘 𝒙
  • 概率密度估计表达为:

    优点:可以自适应的确定𝒙相关的区域𝑅的范围。
    缺点:KNN概率密度估计不是连续函数。不是真正的概率密度表达,概率密度函数积分是 ∞ 而不是1。

8.直方图与核密度估计

直方图估计:直方图也是基于无参数概率密度估计的基本原理:p=k/(NV),手动将特征空间划分为若干个区域,待估计模式只能分配到对应的固定区域,缺乏自适应能力
优点:固定区域𝑅:减少由于噪声污染造成的估计误差。不需要存储训练样本
缺点:固定区域𝑅的位置:如果模式𝒙落在相邻格子的交界区域,意味
着当前格子不是以模式𝒙为中心,导致统计和概率估计不准确。固定区域𝑅的大小:缺乏概率估计的自适应能力,导致过于尖锐或平滑

双线性插值

针对区域𝑅的位置固定,自适应能力不强的问题:在统计阶段,给定一个训练样本𝒙 ,𝑏𝑖和𝑏𝑗 是其相邻的两个格子,𝜇𝑖和𝜇𝑗分别是这两个格子的均值,𝑎和𝑏代表𝒙到两个均值的距离

带宽选择

带宽ℎ过小,概率密度函数过于尖锐。带宽ℎ过大,概率密度函数过于平滑

核密度估计

区域𝑅的确定:以任意待估计模式𝒙为中心、固定带宽ℎ,以此确定一个区域𝑅。
概率密度估计:
给定任意模式𝒙,其概率密度可以表达如下:

核函数要满足如下两个条件,使得估计的概率密度符合概率的定义

核函数可以是高斯分布、均匀分布、三角分布等

优点:

  • 以待估计模式𝒙为中心、自适应确定区域𝑅的位置。
  • 使用所有训练样本,而不是基于第 𝑘 个近邻点来估计概率密度,从而克服KNN估计存在的噪声影响。
  • 如果核函数是连续,则估计的概率密度函数也是连续的
    缺点;与直方图估计相比,核密度估计不提前根据训练样本估计每个格子的统计值,所以它必须要存储所有训练样本

带宽选取原则:泛化能力

带宽ℎ决定了估计概率的平滑程度。
因为给定的训练样本数量是有限的,所以要求根据这些训练样本估计出来的概率分布既能够符合这些训练样本,同时也要有一定预测能力,即也能估计未看见的模式

核密度估计比直方图估计更加平滑

posted @ 2021-05-04 21:47  遇鹿  阅读(151)  评论(0编辑  收藏  举报
/* 看板娘 */