预习记录&课后复习

  • 第一章我们学习了模式识别与机器学习的基本概念

      1.1根据任务,模式识别可以划分为"分类”和“回归”两种形式。
      模式识别:根据已有知识的表达,针对待识别模式,判别决策其所属的类别或者预测其对应的回归值。由此可见,模式识别本质上是一-种推理(inference) 过程。
      1.2数学解释:模式识别可以看做一种函数映射f(x), 将待识别模式x从输入空间映射到输出空间。函数f(x)是关于已有知识的表达。
      1.3特征向量的相关性:由于每个特征向量代表一个模式, 所以度量特征向量两两之间的相关性是识别模式之间是否相似的基础。特征向量点积、投影、残差向量、欧式距离。
      1.4机器学习基本概念:拿什么学?——训练样本。学什么?——模型的参数和结构。怎么学?——样本量VS模型估计量。
      1.5模型的泛化能力:泛化能力——训练得到的模型不仅要对训练样本具有决策能力,也要对新的(训练过程中未看见)的模式具有决策能力。提高泛化能力——模型选择,正则化,调参。
      1.6评估方法与性能指标:评估方法——留出法(Hold-out)、K折交叉验证( K-Folds Cross Validation )留一验证( leave-one-out cross-validation )
      性能指标:准确度(Accuracy) :将阳性和阴性综合起来度量识别正确的程度。精度(Precision) :预测为阳性样本的准确程度。召回率(Recall) :也称作敏感度(sensitivity) ,全部阳性样本中被预测为阳性的比例。
    
  • 第二章我们学习了基于距离的分类器。

      2.1MED分类器:基于距离的决策——定义:把测试样本到每个类之间的距离作为决策模型,将测试样本判定为与其距离最近的类。
      MED分类器——最小欧式距离分类器(MinimumEuclidean Distance Classifier) 存在问题——MED分类器采用欧氏距离作为距离度量,没有考虑特征变化的不同及特征之间的相关性。
      2.2特征白化:目的——将原始特征映射到一个新的特征空间,使得在新空间中特征的协方差矩阵为单位矩阵,从而去除特征变化的不同及特征之间的相关性。
      2.3MICD分类器:最小类内距离分类器(Minimum Intra-class Distance Classifier )是基于马氏距离的分类器。马氏距离的属性。缺陷——会选择方差较大的类。
    
  • 第三章——贝叶斯决策与学习

      3.1贝叶斯决策与MAP分类器。基于距离的决策——仅考虑每个类别各自观测到的训练样本的分布情况,例如,均值(MED分类器)和协方差(MICD分类器)没有考虑类的分布等先验知识,例如,类别之间样本数量的比例,类别之间的相互关系。
      后验概率:用于分类决策。基于贝叶斯规则(Bayes rule) ,已知先验概率和观测概率,模式x属于类C后验概率的计算公式为:p(C;x)=p(x|C)p(C) /p(x)。
      MAP分类器——最大后验概率(Maximum posterior probability, MAP)分类器:将测试样本决策分类给后验概率最大的那个类。
      3.2、MAP分类器:高斯观测概率。MAP分类器偏向于先验较大可能性的类、分布较为紧致的类。
      3.3、决策风险与贝叶斯分类器。在MAP分类器基础上,加入决策风险因素,得到贝叶斯分类器(Bayes classifier)——给定一个测试样本x,贝叶斯分类器选择决策风险最小的类。
      3.4、最大似然估计。定义——待学习的概率密度函数记作p(x|), θ是待学习的参数。给定的N个训练样本都是从p(x|0)采样得到的、且都符合iid条件,
      则所有样本的联合概率密度为: p(x1, x2,... xN|) = Πn=1 p(xn|0)。该函数称为似然函数(L ikelihood function)。学习参数θ的目标函数可以设计为:使得该似然函数最大。
      3.5、最大似然的估计偏差。如果一个参数的估计量的数学期望是该参数的真值,则该估计量称作无偏估计(unbiased estimates)。
      在实际计算中,可以通过将训练样本的协方差乘以N/(N- 1)来修正协方差的估计值。
      3.6、贝叶斯估计(1)。贝叶斯估计——给定参数0分布的先验概率以及训练样本,估计参数分布的后验概率。
      参数后验概率:分析——当Ni;足够大时,样本均值m就是参数的无偏估计。
      贝叶斯估计具备不断学习的能力——它允许最初的、基于少量训练样本的、不太准的估计。随着训练样本的不断增加,可以串行的不断修正参数的估计值,从而达到该参数的期望真值。
      3.7、贝叶斯估计(2)。贝叶斯估计vs最大似然估计——样本个数逐渐增大时,贝叶斯估计越来越能代表真实的观测似然分布。最大似然估计有明确的目标函数,通过优化技术来求取0ML。
      3.8、KNN估计。如果概率分布形式未知,可以通过无参数(non- parametric)技术来实现概率密度估计。
      K近邻(k-nearest neighbor, KNN) 估计:给定x,找到其对应的区域R使其包含k个训练样本,以此计算p(x)。训练样本个数N越大,k取值越大,概率估计的越准确。
      KNN——优点:可以自适应的确定x相关的区域R的范围。缺点:KNN概率密度估计不是连续函数。不是真正的概率密度表达,概率密度函数积分是∞而不是1。
      3.9、直方图与核密度估计。直方图估计: 优缺点——优点:固定区域R:减少由于噪声污染造成的估计误差。不需要存储训练样本。
      缺点——固定区域R的位置:如果模式x落在相邻格子的交界区域,意味着当前格子不是以模式x为中心,导致统计和概率估计不准确。固定区域R的大小:缺乏概率估计的自适应能力,导致过于尖锐或平滑。
    
posted on 2020-05-06 07:02  031702112  阅读(154)  评论(0编辑  收藏  举报