机器学习--判别式模型与生成式模型

一、引言

　　本材料参考Andrew Ng大神的机器学习课程 http://cs229.stanford.edu

　　在上一篇有监督学习回归模型中，我们利用训练集直接对条件概率p(y|x;θ)建模，例如logistic回归就利用h_θ(x) = g(θ^Tx)对p(y|x;θ)建模（其中g(z)是sigmoid函数）。假设现在有一个分类问题，要根据一些动物的特征来区分大象(y = 1)和狗(y = 0)。给定这样的一种数据集，回归模型比如logistic回归会试图找到一条直线也就是决策边界，来区分大象与狗这两类，然后对于新来的样本，回归模型会根据这个新样本的特征计算这个样本会落在决策边界的哪一边，从而得到相应的分类结果。

　　现在我们考虑另外一种建模方式：首先，根据训练集中的大象样本，我们可以建立大象模型，根据训练集中的狗样本，我们可以建立狗模型。然后，对于新来的动物样本，我们可以让它与大象模型匹配看概率有多少，与狗模型匹配看概率有多少，哪一个概率大就是那个分类。

　　判别式模型（Discriminative Model）是直接对条件概率p(y|x;θ)建模。常见的判别式模型有线性回归模型、线性判别分析、支持向量机SVM、神经网络等。

　　生成式模型（Generative Model）则会对x和y的联合分布p(x,y)建模，然后通过贝叶斯公式来求得p(y_i|x)，然后选取使得p(y_i|x)最大的y_i，即：

常见的生成式模型有隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA等。

二、高斯判别分析 Gaussian Discriminant Analysis

　　高斯判别分析GDA是一种生成式模型，在GDA中，假设p(x|y)满足多值正态分布。多值正态分布介绍如下：

　　2.1 多值正态分布 multivariate normal distribution

　　一个n维的多值正态分布可以表示为多变量高斯分布，其参数为均值向量，协方差矩阵，其概率密度表示为：

当均值向量为2维时概率密度的直观表示：

左边的图表示均值为0，协方差矩阵∑ = I；中间的图表示均值为0，协方差矩阵∑ = 0.6I；右边的图表示均值为0，协方差矩阵∑ = 2I。可以观察到，协方差矩阵越大，概率分布越扁平；协方差矩阵越小，概率分布越高尖。

　　2.2 高斯判别分析模型

　　如果有一个分类问题，其训练集的输入特征x是随机的连续值，就可以利用高斯判别分析。可以假设p(x|y)满足多值正态分布，即：

该模型的概率分布公式为：

模型中的参数为Φ，Σ，μ₀和μ₁。于是似然函数（x和y的联合分布）为：

其中Φ是y = 1的概率，Σ是协方差矩阵，μ₀是y = 0对应的特征向量x的均值， μ₁是y = 1对应的特征向量x的均值，于是得到它们的计算公式如下：

于是这样就可以对p(x,y)建模，从而得到概率p(y = 0|x)与p(y = 1|x)，从而得到分类标签。其结果如下图所示：

三、朴素贝叶斯模型

　　在高斯判别分析GDA中，特征向量x是连续实数值，如果特征向量x是离散值，可以利用朴素贝叶斯模型。

　　3.1 垃圾邮件分类

　　假设我们有一个已被标记为是否是垃圾邮件的数据集，要建立一个垃圾邮件分类器。用一种简单的方式来描述邮件的特征，有一本词典，如果邮件包含词典中的第i个词，则设x_i = 1，如果没有这个词，则设x_i = 0，最后会形成这样的特征向量x：

这个特征向量表示邮件包含单词"a"和单词"buy"，但是不包含单词"aardvark,"aardwolf","zygmurgy"。特征向量x的维数等于字典的大小。假设字典中有5000个单词，那么特征向量x就为5000维的包含0/1的向量，如果我们建立多项式分布模型，那么有2⁵⁰⁰⁰中输出结果，这就意味着有接近2⁵⁰⁰⁰个参数，这么多的参数，要建模很困难。

　　因此为了建模p(x|y)，必须做出强约束假设，这里假设对于给定的y，特征x是条件独立的，这个假设条件称为朴素贝叶斯假设，得到的模型称为朴素贝叶斯模型。比如，如果y= 1表示垃圾邮件，其中包含单词200 "buy"，以及单词300 "price"，那么我们假设此时单词200 "buy" x_200、单词300"price"x₃₀₀是条件独立的，可以表示为p(x₂₀₀|y) = p(x₂₀₀|y,x₃₀₀)。注意，这个假设与x₂₀₀与x₃₀₀独立是不同的，x₂₀₀与x₃₀₀独立可以写作：p(x₂₀₀) = p(x₂₀₀|x₃₀₀)；这个假设是对于给定的y，x₂₀₀与x₃₀₀是条件独立的。