判别模型和生成模型

所有机器学习算法的目标就是求得一个决策函数$y=f(x)$或者说是求得一个条件概率$p(y|x)$。

生成模型：直接求联合概率$p(x,y)$，得到$p(x,y)$后就可以去生成样本。HMM、高斯混合模型GMM、LDA、PLSA、Naive Bayes都属于生成模型。当我们得到HMM模型后，就可以根据初始状态分布$\pi$、状态转移矩阵$A$和发射矩阵$B$去生成一个状态序列及相应的观察序列，即拿着生成模型可以去生成样本。LDA（或PLSA）模型也一样，得到文档下的主题分布$p(z_k|d_i)$及主题下的词分布$p(w_j|z_k)$后，上帝就可以去创作文章了。

判别模型：直接求判别（或者是预测）函数$y=(f(x)$，或者另一种表达：$p(y|x)$。最大熵MaxEnt、人工神经网络ANN、逻辑回归LR、线性判别分析LDA、K-Means、KNN、SVM、决策树都属于判别模型。最大熵直接去求$p(y|x)$，它不会浪费功夫去求$p(x,y)$。同样KNN也不关心样本是如何生成的，它只会对样本进行分类。