分类器之逻辑回归(Logistic regression)

分类问题的两种解决方案

给定训练数据$T=\{(X_i, Y_i), i = 1, 2, 3, \ldots, N\}$,$Y$是categorical variable,假设有$K$类。分类问题就是给定sample的x去预测y,也就是学习条件概率$P(Y|X)$。一个直观的解是$\hat{k} = argmax_kP(y_k|x)$。由Bayes公式,$P(Y|X)=\frac{P(X|Y)P(Y)}{\sum_{Y}P(X|Y)P(Y)}$。要解决分类问题,这个公式告诉我们至少有两种解决方案。第一,从等式左边出发,对条件概率直接建模,代表方法是logistic regression。第二,从等式右边出发,由于分母是X的边缘分布,与确定类别无关,只需考虑分子,而$P(X|Y)$和$P(Y)$都可以由训练数据估计,代表方法是Naive Bayes classifier。

一维二分类问题

fig1

posted @ 2013-02-01 17:17  cchen  阅读(734)  评论(0)    收藏  举报