tingfa

导航

《机器学习》第一次作业——第一至三章学习记录和心得

第一章模式识别基本概念

1.1 什么是模式识别

模式识别分为以下两种模式

  • 分类——输出是离散的类别表示,即输出待识别模式所属的类别;有二类/多类
  • 回归——输出量是连续的信号表达(回归值);输出量是单个/多个维度

回归是分类的基础:离散的类别值是由回归值做判别决策得到的。

模式识别——根据已有知识的表达,针对待识别模式,判别决策其所属的类别或者预测其对应的回归值。
  • 模式识别本质上是一种推理(inference)过程。

1.2 模式识别数学表达

数学解释——模式识别可以看做一种函数映射f(x)

 模型——关于已有知识的一种表达方式,即函数y=f(x)

  • 特征提取
  • 回归器——将特征映射到回归值

 判别函数——用特定的非线性函数实现,判别器有二类分类和多累分类;判别函数不能当做模型的一部分

判别公式和决策边界——用来分类

特征

  • 特征的特征——辨别能力
  • 特征的特性——鲁棒性
  • 特征向量——模长(标量)×方向(单位向量)
  • 特征空间

1.3 特征向量的相关性

度量特征向量两两之间的相关性是识别模式之间是否相似的基础

点积

  • 代数定义(标量、对称性,线性变化)
  • 几何定义(可体现方向上的相似度)

投影——将向量想垂直投射到向量y方向上的长度;不具备对称性

  • 点积可通过投影表达

残差向量——向量x分解到y方向上得到的投影向量与原向量x的误差

欧氏距离——表征两个向量之间的相似程度(综合考虑方向和横长)

1.4 机器学习基本概念

 

线性模型——线性的(直线、面、超平面)

 非线性模型——(曲面、曲线、超曲面)

常见非线性模型:多项式、神经网络、决策树...

训练样量N与模型参数的关系

  • N=M:参数有唯一解
  • N>>M:没有准确的解(over-determined)
  • N<<M:无数个解/无解

 优化算法——最小化或最大化目标函数

机器学习方式

  • 监督式学习——训练样本及其输出真值都给定情况下的机器学习算法
  • 无监督式学习——只给定训练样本、没有给输出真值情况下的机器学习算法;算法难度远高于监督式学习;应用于聚类、图像分割
  • 半监督式学习——既有标注的训练样本、又有未标注的训练样本情况下的学习算法

1.5 模型泛化能力

泛化能力——训练得到的模型不仅要对训练样本具有决策能力,也要对新的(训练过程中未看见)的模式具有决策能力。

提高泛化能力——不要过度训练。

  • 选择复杂度适合的模型
  • 在目标函数中加入正则项来实现

1.6 评估方法与性能指标

评估方法

  • 留出法(Hold-out)——随机划分;将数据集随机分为两组:训练集和测试集。利用训练集训练模型,然后利用测试集评估模型的量化指标。
  • K折交叉验证(K-Folds Cross Validation)——将数据集分割成K个子集,从其中选取单个子集作为测试集,其他K - 1个子集作为训练集。
  • 留一验证(leave- one-out cross-validation)——每次只取数据集中的一个样本做测试集,剩余的做训练集。

性能指标度量

 F-Score——

 

 

 曲线度量——PR曲线、ROC曲线、曲线下方面积AUC

第二章基于距离的分类器

2.1 MED分类器

基于距离的决策——把测试样本到每个类之间的距离作为决策模型,将测试样本判定为与其距离最近的类。

类的原型——用来代表这个类的一个模式或者一组量,便于计算该类和测试样本之间的距离

距离度量

MED分类器

  • 概念——最小欧式距离分类器(Minimum Euclidean Distance Classifier)
  • 距离衡量——欧式距离
  • 类的原型——均值
  • 决策边界——
  • 存在的问题——MED分类器采用欧氏距离作为距离度量,没有考虑特征变化的不同及特征之间的相关性。
  • 解决方法——特征白化

2.3 特征白化

目的——去除特征变化的不同特性及特征之间的相关性

步骤——先去除特征之间的相关性(解耦, Decoupling),然后再对特征进行尺度变换(白化,Whitening),使每维特征的方差相等。
W=W2W1

  • 解耦——通过WW实现协方差矩阵对角化,去除特征之间的相关性。
  • 白化——通过W2W2对上一步变换后的特征再进行尺度变换,实现所有特征具有相同方差。

2.3 MICD分类器

MICD分类器

  • 概念——最小类内距离分类器(Minimum Intra-class Distance Classifier) ,基于马氏距离的分类器。
  • 距离度量——马氏距离
  • 类的原型——均值
  • 缺陷——会选择方差较大的类

第三章贝叶斯决策与学习

3.1贝叶斯决策与MAP分类器

基于距离的决策仅考虑各自训练样本的分布情况,而没有考虑类的分布等先验知识
将后验概率用于分类决策,决策时找后验概率最大的那个类

 基于贝叶斯规则,计算后验概率

 MAP分类器(最大后验概率分类器)——将测试样本决策分类给后验概率最大的那个类

 给定所有测试样本,MAP分类器选择后验概率最大的类,等于最小化平均概率误差即最小化决策误差

3.2 MAP分类器:高斯观测概率

1、表达先验和观测概率的方式

  • 常数表达:例如,𝑝 𝐶𝑖 = 0.2
  • 参数化解析表达:高斯分布……
  • 非参数化表达:直方图、核密度、蒙特卡洛…

代入MAP分类器判别公式并化简得;为了得到决策边界,设置判别公式两边相等

 

  •  和MICD、MED分类器相比,MAP分类器偏向于先验可能性比较大的类、分布较为紧致的类。

3.3 决策风险与贝叶斯分类器

决策风险——贝叶斯决策可能会出现错误判断,并且不同的错误决策会产生程度完全不一样的风险

  • 因此引入损失(loss)的概念,针对决策进行损失评估;

贝叶斯决策的期望损失——所有样本的决策损失之和

  • 决策目标:最小化期望损失,即对每个测试样本选择风险最小的类

贝叶斯分类器——在MAP分类器基础上,加入决策风险因素;给定一个测试样本x,贝叶斯分类器选择风险最小的类

  • 判别公式:

 朴素贝叶斯分类器——假设特征之间是相互独立,从而推出以下公式

                   

决策边界附近的处理——为避免错误决策,分类器可以拒绝

3.4 最大似然估计

常用的参数估计方法

  • 最大似然估计
  • 贝叶斯估计

先验概率估计

P为待学习的参数

  • 先验概率的最大似然估计就是该类训练样本出现的频率
  • 高斯分布均值的最大似然估计等于样本的均值
  • 高斯分布协方差的最大似然估计等于所有训练模式的协方差

 3.5 最大似然的估计偏差

无偏估计——如果一个参数的估计量的数学期望是该参数的真值,则该估计量为无偏估计

这意味着训练样本个数足够多,该估计值就是参数的真实值

最大似然估计

3.6 &3.7 贝叶斯估计

 贝叶斯估计——给定参数分布的先验概率以及训练样本,估计参数分布的后验概率

高斯观测似然

 假设参数的先验概率分布也服从单位高斯分布,根据先验概率和基于训练样本的观测似然,计算后验概率,可以解出

 分析

  • 给定𝐶𝑖类的𝑁𝑖个训练样本,参数θ概率分布的均值等于训练样本均值和该参数先验概率均值的加权和。
  • 给定𝐶𝑖类的𝑁𝑖个训练样本,参数θ概率分布的方差是由𝐶𝑖类观测似然分布的方差、该参数的先验概率方差、 𝐶𝑖类的样本个数共同决定
  • 当Ni足够大时,样本均值m就是参数θ的无偏估计

参数先验对后验的影响

  • 如果参数的先验方差𝜎0 = 0,则𝜇𝜃 → 𝜇0,意味先验的确定性较大,先验均值的影响也更大,使得后续训练样本的不断进入对参数估计没有太多改变。
  • 如果参数的先验方差𝜎0 ≫ 𝜎,则𝜇𝜃 → 𝑚,意味着先验的确定性非常小。刚开始由于样本较少,导致参数估计不准。随着样本的不断增加,后验均值会逼近样本均值。

贝叶斯具备不断学习的能力

观测似然概率的估计

参数为随机参数,观测似然通过求边缘概率;由于各个类别单独估计概率分布,上式写为

       

 贝叶斯估计与最大似然估计

  •  贝叶斯估计把𝜃当做隐随机变量,所以需要求关于𝜃 的边缘概率,从而来得到观测似然;而最大似然估计有明确的目标函数,通过优化技术来求取𝜃 ML

3.8 KNN估计

常用的无参数技术

  • K近邻法(K-nearest neighbors)
  • 直方图技术(Histogram technique)
  • 核密度估计(Kernel density estimation)

概率密度估计基本理论

给定𝑁个训练样本,在特征空间内估计每个任意取值𝒙的概率密度,即估计以𝒙为中心、在极小的区域𝑅 = (𝒙, 𝒙 + 𝛿𝒙) 内的概率密度函数𝑝(𝒙);

  • 无参数估计的任务: 估计概率𝑝(𝒙)
  • 如果区域𝑅足够小,𝑃是𝑝(𝒙)的平滑版本,可以用来估计𝑝(𝒙)。
  •  k个样本落在区域R内的概率密度可以用二项分布表达当N很大时,k的分布非常尖锐且集中在均值附近;二项分布的均值;因此N很大时,可用均值表达k的分布;得到P的近似估计

 KNN估计(K近邻估计)——给定x,找到其对应的区域R使其包含k个训练样本,以此计算p(x)

        概率密度表达为:

 训练样本个数N越大,k取值越大,概率估计的越准确

  • 优点:可以自适应的确定x相关的区域R的范围。
  • 缺点:KNN概率密度估计不是连续函数,计算出的概率并不是真正的概率密度表达,积分回到正无穷而不是1。在推理测试阶段仍然需要存储所有训练样本,且易受噪声影响。

3.9  直方图与核密度估计

 直方图估计

  • 优点:减少由于噪声污染造成的估计误差;不需要存储训练样本
  • 缺点:估计可能不准确;缺乏概率估计的自适应能力,导致过于尖锐或平滑

核密度估计

 估计对比

  • KNN估计:以待估计的任意一个模式为中心,搜寻第𝑘个近邻点,以此来确定区域,易被噪声污染。
  • 直方图估计:手动将特征空间划分为若干个区域,待估计模式只能分配到对应的固定区域,缺乏自适应能力

 

 

 

 

posted on 2021-05-05 10:29  tingfa  阅读(158)  评论(0编辑  收藏  举报