Logistic回归与最大熵模型

文章记录的内容是参加DataWhale的组队学习统计学习方法（第二版）习题解答过程中的笔记与查缺补漏！
参考解答地址：Logistic回归与最大熵模型。

1. 确认Logistic分布属于指数分布族。

解答思路：

列出 Logistic 分布的定义
列出指数分布族的定义
通过指数倾斜，证明Logistic分布的分布函数无法表示成指数分布族的分布函数形式

先看一下什么是 Logistic 分布：

设\(X\)是连续随机变量，\(X\)服从Logistic分布是指\(X\)具有下列分布函数和密度函数：

\[F(x) = P(X \leqslant x) = \frac{1}{1 + \text{e}^{-(x-\mu)/\gamma}} \\ f(x) = F'(x) = \frac{\text{e}^{-(x-\mu)/\gamma}}{\gamma(1+ \text{e}^{-(x-\mu)/\gamma})^2} \]
式中，\(\mu\)为位置参数，\(\gamma > 0\)为形状参数。

再了解与以下指数分布族（注意不是指数分布！）：

对于随机变量\(x\)，在给定参数\(\theta\)下，其概率分别满足如下形式：

\[f(x|\theta)=h(x)g(\theta)\exp(\eta(\theta)\cdot T(x)) \]
称之为指数分布族。
其中：\(g(\theta)\)表示归一化系数，\(h(x)>0\)

后续的证明没有看懂，可以参考：

2. 写出 Logistic 回归模型学习的梯度下降算法。

解答思路：

写出 Logistic 回归模型
根据书中附录A梯度下降法，写出 Logistic 回归模型学习的梯度下降法
自编程实现 Logistic 回归模型学习的梯度下降法

回顾一下 Logistic 模型：

\[P(Y = 1 \mid X) = \frac{ e^{ w \cdot x + b } }{ 1 + e^{ w \cdot x + b }} \]
\[P(Y = 0 \mid X) = \frac{ 1 }{ 1 + e^{ w \cdot x + b }} \]

既然要求梯度，那么肯定是要目标函数的。在求解逻辑回归模型的参数时，可以通过极大似然法估计参数，也可以用交叉熵损失函数。当然，这二者是等价的。

从极大似然的角度出发。随机变量 \(Y\) 的概率分布为：\(P(Y \mid X) = (\frac{ e^{ w \cdot x + b } }{ 1 + e^{ w \cdot x + b }}\: )^{I(Y=1)} \cdot \: (\frac{ 1 }{ 1 + e^{ w \cdot x + b }}\: )^{I(Y=0)}\)。那么似然函数为：

\[L = \prod_{i=1}^N P(y_i \mid x_i) \]

取对数后的似然函数为：

\[\begin{align} \log L &= \log \prod_{i=1}^N P(y_i \mid x_i) \\ &= \sum_{i=1}^N \log (\frac{ e^{ w \cdot x_i + b } }{ 1 + e^{ w \cdot x_i + b }}\: )^{I(y_i=1)} \cdot \: (\frac{ 1 }{ 1 + e^{ w \cdot x_i + b }}\: )^{I(y_i=0)} \\ &= \sum_{i=1}^N I(y_i = 1) \log \frac{ e^{ w \cdot x_i + b } }{ 1 + e^{ w \cdot x_i + b }} + I(y_i = 0) \log \frac{ 1 }{ 1 + e^{ w \cdot x_i + b }} \\ &= \sum_{i=1}^N y_i \log \frac{ e^{ w \cdot x_i + b } }{ 1 + e^{ w \cdot x_i + b }} + (1 - y_i) \log \frac{ 1 }{ 1 + e^{ w \cdot x_i + b }} \\ &= \sum_{i=1}^N y_i (w \cdot x_i + b) - \log (1 + e^{w \cdot x_i + b}) \end{align} \]

对 \(\log L\) 求偏导后可得：

\[\begin{cases}\frac{ \partial \log L }{ \partial w } = \sum_{i=1}^N (y_i - \frac{ e^{w \cdot x_i + b} }{ 1 + e^{w \cdot x_i + b} }\: ) x_i, & \\ \frac{ \partial \log L }{ \partial w } = \sum_{i=1}^N y_i - \frac{ e^{w \cdot x_i + b} }{ 1 + e^{w \cdot x_i + b} } & \end{cases} \]

3. 写出最大熵模型学习的DFP算法。

解答思路：

写出最大熵模型
根据附录B的DFP算法，写出最大熵模型学习的DFP算法
自编程实现最大熵模型学习的DFP算法

最大熵模型一直没看太懂，参考这里。

posted @ 2021-12-28 15:22 Milkha 阅读(198) 评论(0) 收藏举报

努力加载评论中...

刷新页面返回顶部

公告

2025年7月

日

一

二

三

四

五

六

Milkha

Logistic回归与最大熵模型

1. 确认Logistic分布属于指数分布族。

2. 写出 Logistic 回归模型学习的梯度下降算法。

3. 写出最大熵模型学习的DFP算法。

公告

搜索

常用链接

最新随笔

我的标签

合集 (2)

随笔分类 (14)

随笔档案 (15)

文章分类 (66)

相册 (0)

阅读排行榜

推荐排行榜

最新评论