Logistic Regression 是一种 Generalized Linear Model(GLM),也即广义线性模型。

1. LR 的基本假设

LR 模型假设观测值 y 成立的对数几率(log-odds)能够表示为 K 重输入变量的线性组合:

logP(x)1P(x)=j=0Kbjxj

其中 x0=1(特征向量进行增广),待求的模型共 K+1 个参数。等式左边被称为 logit of P(这也是 logistic regression 得名的原因)。

等式两边同时取对数:

P(x)1P(x)=expj=0Kbjxj=j=0Kexp(bjxj)

这样的等式形式清晰地说明了,logistic 模型与输入之间是乘性关系,而不是线性模型的加性关系,这种加性关系也给了我们一种解释系数的方式。比如 exp(bj) 就表明了,随着 xj 增加一个单位(xjxj+1),模型的输出为真的几率增加的大小(也即 exp(bj))。考虑 bj=0.693,则 exp(bj)=2,如果此时 xj 表达的是数值变量,比如年龄,xj 变量没增加 1 岁,模型输出为真的几率就变为之前的 2 倍。

如果记 z=j=0Kbjxj,上述等式又可转化为:

P(x)=11+exp(z)

等式右端被称为 sigmoid 函数(关于 z),


posted on 2017-01-10 16:53  未雨愁眸  阅读(185)  评论(0)    收藏  举报