XGBoost

摘要

集成学习是机器学习算法中地位非常重要的一类算法, 其拥有理论基础扎实、易扩展、可解释性强等特点, 其核心思想是, 使用弱学习器(如线性模型、决策树等)进行加权求和, 从而产生性能较为强大的强学习器. 若按照指导弱学习器进行学习的理论基础进行分类的话, 集成学习的算法可分为两大类: 1. 基于偏差方差分解和bagging(bootstrap aggregating, 有放回抽样与集成)进行弱学习器学习的算法, 其典型代表是RF(Random Forest, 随机森林); 2. 基于梯度下降和boosting $^{[1]}$ (提升)使弱学习器对前序产生的模型的不足之处进行改进, 以达到提升强学习器能力的效果, 其典型代表是AdaBoost(Adaptive Boosting, 自适应提升), GBDT(Gradient Boosting Decision Tree, 梯度提升决策树). 本文主要的阐述对象是第二类, 即基于梯度下降和boosting的算法, 具体分为如下章节:

阐述梯度提升算法的理论基础;
阐述GBDT的算法框架;
阐述XGBoost的具体实现;
阐述GBDT与LR(logistics regression, 逻辑斯底回归)在点击率预估任务中的具体应用;
总结.

关键词: 梯度提升, 决策树, 集成学习, 机器学习, 推荐系统

校对:

, ,

知乎专栏: 「张同学讲机器学习」

梯度提升算法的理论基础

集成学习是机器学习算法中地位非常重要的一类算法, 其核心思想是, 使用弱学习器(如线性模型、决策树等)进行加权求和, 从而产生性能较为强大的强学习器. 具体的, 假设我们有数据集 $D = \{ (x_i, y_i) \}, i = 1, \cdots, n$ , 集成学习希望使用如下的模型对数据集 $D$ 进行拟合

$\mathcal{F}(x) = \sum_{m=1}^{M} \alpha_m h_m(x), h_m \in \mathcal{H}\tag{1}$

其中, 系数 $\alpha_m$ 为各个弱学习器的权重, $h_m(x) \in \mathcal{H}, m = 1, \cdots, M$ 为弱学习器. 由(1)来进行如下的拟合过程

$\begin{align} \mathcal{F}_{\star} & = \underset{\mathcal{F}}{\mathrm{argmin}} \ \frac{1}{n}\sum_{i=1}^{n}\mathcal{L}(y_i, \mathcal{F}(x_i)) \\ & = \underset{\mathcal{\alpha_m,h_m}}{\mathrm{argmin}} \ \frac{1}{n}\sum_{i=1}^{n}\mathcal{L}(y_i, \sum_{m=1}^{M} \alpha_m h_m(x_i)), h_m \in \mathcal{H} \tag{2} \end{align}$

即可得到强学习器 $\mathcal{F_{\star}}$ . 由(2)我们可知, 获得强学习器 $\mathcal{F_\star}$ 的关键在于如何获得弱学习器 $h_m(x) \in \mathcal{H}, m = 1, \cdots, M$ , 若按照指导弱学习器进行学习的理论基础进行分类, 我们可将其分为bagging和boosting, 具体地

bagging. 使用bootstrap aggregating进行有放回抽样, 训练出若干个弱学习器进行集成, 其目的是通过有放回抽样构造出多个数据集并分别进行弱学习器训练再进行集成, 以期降低模型的期望泛化误差偏差方差分解中的方差部分, 从而增强模型的泛化能力

$\begin{align} \mathbf{E}_{D} \Bigl[ (f(x; D) - y_D)^2 \Bigr] & = \underbrace{\mathbf{E}_{D} \Bigl[ (f(x; D) - \bar{f}(x))^2 \Bigr]}_{方差} \\ & + \underbrace{(\bar{f}(x) - y)^2}_{偏差} + \underbrace{\mathbf{E}_{D} \Bigl[ (y_D - y)^2 \Bigr]}_{噪声} \end{align} \tag{3}$

由(3)我们可知, 模型的期望泛化误差可表示成模型 $f(x;D)$ 关于同分布的多个数据集 $D$ 的方差、模型 $f(x)$ 的偏差和数据集的噪声之和. 其中, 偏差度量了学习算法的期望预测与真实结果的偏离程度，即刻画了学习算法的拟合能力；方差度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所带来的影响；噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界，即刻画了学习问题本身的难度 $^{[6]}$ . 一个很自然的想法是, 如果能使用多个同样大小的同分布数据集 $\tilde{D}_{m}$ 分别进行模型的训练, 然后使用其平均的预测结果作为模型的最终预测结果, 那么我们就能有效地降低模型的方差, 从而降低模型的期望泛化误差. 基于这个思路衍生出了很多算法, 此处我们以随机森林为例.

由于在生产环境中, 数据的获得往往成本较为昂贵, 所以, 随机森林使用bagging在数据集 $D$ 上构造多个数据集 $\tilde{D}_m, m = 1, \cdots, M$ , 以期达到相近的效果. 对于每个数据集 $\tilde{D}_m$ , 我们使用一棵C&RT $^{[8]}$ 决策树进行拟合, 算法如下

$\begin{align} \tag{4} & For \ \ m := 1 \leftarrow M \ \ do \\ & \ \ \ \ \ \ \ \ request \ data \ \tilde{D}_m \ by \ \mathbf{bagging} \ with \ D \\ & \ \ \ \ \ \ \ \ obtain \ tree \ h_m \ by \ \mathbf{C\&RT}(\tilde{D}_m) \\ & end \\ & return \ \mathcal{F} = \frac{1}{M}\sum_{m=1}^{M} h_m = \frac{1}{M}\sum_{m=1}^{M}\mathbf{C\&RT}(\tilde{D}_m) \tag{5} \end{align}$

$\begin{align} \end{align}$ 由(5)我们可得最终的随机森林模型. 随机森林有许多的优点, 包括: 学习过程可高度并行, 学习效率较高; 继承了决策树强悍拟合数据能力的优点, 由规避了决策树容易过拟合的缺点.

2. boosting. 以分阶段的形式顺序迭代地学习每个弱学习器, 而每个弱学习器都是在对前序模型的不足之处进行改进, 从而得到更强的强学习器, 其理论基础是梯度下降. 具体地, 对于数据集 $D = \{ (x_i, y_i) \}, i = 1, \cdots, n$ , 若此时我们已得到模型 $\mathcal{F}_{m-1}$ , 其对数据集 $D$ 的预测结果为 $\mathcal{F}_{m-1}(x_i), i = 1, \cdots, n$ , 我们希望通过本次迭代学习到一个弱学习器 $h_m$ , 使其对模型 $\mathcal{F}_{m-1}$ 的预测结果进行修正, 从而得到更为精确的模型 $\mathcal{F}_{m}$ , 即 $\mathcal{F}_m(x_i), i = 1, \cdots, n$ 更为接近数据集 $D$ 中的标签值. 在不改变前序模型 $\mathcal{F}_{m-1}$ 的前提下, 一个很直观的想法是, 如果弱学习器 $h_m$ 能对标签值 $y_i, i = 1, \cdots, n$ 与预测值 $\mathcal{F}_{m-1}(x_i), i = 1, \cdots, n$ 之间的差值有一个很好的预测, 那么我们便可以得到更强的模型 $\mathcal{F}_m = \mathcal{F}_{m-1} + h_m$ . 在这种思路的指导下, 第 $m$ 次迭代时, 我们使用数据集 $\hat{D}_m = \{ (x_i, r_{im}) \}, i = 1, \cdots, n$ 对弱学习器 $h_m$ 进行训练, 其中 $r_{im} = y_i - \mathcal{F}_{m-1}(x_i), i = 1, \cdots, n$ , 为标签值 $y_i$ 与预测值 $\mathcal{F}_{m-1}(x_i)$ 之间的残差, 从弱学习器 $\mathcal{F}_0$ 开始, 其过程为

$\begin{align} \mathcal{F}_0 & = \underset{\gamma}{\mathrm{argmin}} \sum_{i=1}^{n}{\mathcal{L}(y_i, \gamma)} \\ \mathcal{F}_m & = \mathcal{F}_{m-1} + \underset{h_m \in \mathcal{H}}{\mathrm{argmin}} \sum_{i=1}^{n}{\biggl [\mathcal{L}(y_i, \mathcal{F_{m-1}}(x_i) + h_m(x_i)) \biggr ]} \tag6\\ & = \mathcal{F}_{m-1} + \underset{h_m \in \mathcal{H}}{\mathrm{argmin}} \sum_{i=1}^{n}{\biggl [\mathcal{L}(r_{im}, h_m(x_i))\biggr ]}, r_{im} = y_i - \mathcal{F}_{m-1}(x_i) \tag7 \end{align}$

由(7)我们便可获得最终的强学习器 $\mathcal{F}$ .

那么, 为什么说上述的学习过程是以梯度下降为理论基础的呢? 我们不妨换一个角度来看(6). 当模型 $\mathcal{F}_{m-1}$ 已经确定下来时, 其预测值 $\mathcal{F}_{m-1}(x_i), i = 1, \cdots, n$ 便为常数, 此时模型 $\mathcal{F}_{m-1}$ 的损失函数为

$\mathcal{Loss} = \frac{1}{n} \cdot \sum_{i=1}^{n} \biggl[ \mathcal{L}(y_i, \mathcal{F}_{m-1}(x_i)) \biggr] \tag8$

(8)可以被看做自变量为 $\mathcal{F}_{m-1}(x_i), i = 1, \cdots, n$ 的函数. 而我们希望损失函数能够越小越好, 则自变量 $\mathcal{F}_{m-1}(x_i), i = 1, \cdots, n$ 的取值往其负梯度方向进行移动便可以达到此效果 $^{[7]}$ . 由(8)我们可得其梯度为

$\begin{align} \nabla{\mathcal{Loss}} = \biggl[ \frac{\partial{\mathcal{Loss}}}{\partial{\mathcal{F_{m-1}(x_i)}}} \biggr]= \biggl[ \frac{\partial{\mathcal{L}(y_i, \mathcal{F}_{m-1}(x_i))}}{\partial{\mathcal{F_{m-1}(x_i)}}} \biggr], i = 1, \cdots, n \tag9 \end{align}$

若此处我们采用MSE(mean squared error, 均方误差)作为其损失函数, 则(9)可进一步表示为

$\begin{align} \because \nabla{\mathcal{Loss}} & = \biggl[\frac{1}{2} \cdot \frac{\partial{(y_i - \mathcal{F}_{m-1}(x_i))^2}}{\partial{\mathcal{F}_{m-1}(x_i)}} \biggr] \\ & = \biggl[ -(y_i - \mathcal{F}_{m-1}(x_i)) \biggr] \\ & = \bigl[ - r_{im} \bigr], i = 1, \cdots, n \tag{10} \\ \therefore - \nabla \mathcal{Loss} & = r_{im} \end{align}$

由(10)我们发现, 损失函数 $\mathcal{Loss}$ 关于自变量 $\mathcal{F}_{m-1}(x_i), i = 1, \cdots, n$ 的负梯度其实就是残差 $r_{im} = y_i - \mathcal{F}_{m-1}(x_i), i = 1, \cdots, n$ . 所以, 我们使用数据集 $\hat{D}_m = \{ (x_i, r_{im}) \}, i = 1, \cdots, n$ 对弱学习器 $h_m$ 进行拟合, 实际上是在用弱学习器 $h_m$ 对负梯度进行拟合, 因此

$\begin{align} \mathcal{F}_m(x_i) & = \mathcal{F}_{m-1}(x_i) + h_m(x_i) \\ \Leftrightarrow \mathcal{F}_m(x_i) & \approx \mathcal{F}_{m-1}(x_i) + r_{im} \\ \Leftrightarrow \mathcal{F}_m(x_i) & \approx \mathcal{F}_{m-1}(x_i) - 1 \cdot \biggl[ \frac{\partial{\mathcal{Loss}}}{\partial{\mathcal{F_{m-1}(x_i)}}} \biggr] \\ \Leftrightarrow \theta_i &:= \theta_i - \gamma \cdot \frac{\partial{\mathcal{Loss}}}{\partial{\theta_i}} \tag{11} \end{align}$

由(11)可以看出, 弱学习器相加的过程, 其实就是损失函数进行梯度下降的过程, 所以, boosting的理论基础就是梯度下降.

若从一阶泰勒展开的角度来看待(6)(8), 我们试图对自变量 $\mathcal{F}_{m-1}(x_i), i = 1, \cdots, n$ 在其邻域中进行一个小的位移 $h_m(x_i)$ , 从而使损失函数减小

$\begin{align} \sum_{i=1}^{n} \mathcal{L}(y_i, \mathcal{F_{m-1}}(x_i) + h_m(x_i)) & \approx \sum_{i=1}^{n} \biggl[ \mathcal{L}(y_i, \mathcal{F_{m-1}}(x_i)) + \frac{\partial{\mathcal{L}(y_i, \mathcal{F}_{m-1}(x_i))}}{\partial{\mathcal{F_{m-1}(x_i)}}} \cdot h_m(x_i) \biggr] \\ & \approx \sum_{i=1}^{n} \Biggl[ \mathcal{L}(y_i, \mathcal{F_{m-1}}(x_i)) - \biggl[ \frac{\partial{\mathcal{L}(y_i, \mathcal{F}_{m-1}(x_i))}}{\partial{\mathcal{F_{m-1}(x_i)}}} \biggr]^2 \Biggr] \tag{12} \\ \end{align}$

由(12)可知, 损失函数值确实会逐步地进行下降, 当然, 如果能使用二阶导数的信息来帮助 $h_m(x_i)$ 进行取值, 损失函数值将能更快地下降, 这便是XGBoost所采取的思路, 请参考本文后续章节.

综上所述, boosting使用梯度来指导弱学习器 $h_{m}$ 进行学习, 与bagging试图减少模型的方差不同, 是完全不同的理论基础. boosting模型的训练过程只能是依次进行弱学习器的学习, 相较bagging较为低效, 而实际使用中, boosting往往能获得比bagging更好的模型性能.

GBDT的算法框架

上一小节中, 我们阐述了boosting的理论基础, 了解了其训练过程是梯度下降的本质. 那么, 我们应该使用什么样的模型来训练弱学习器 $h_m$ 呢? GBDT就是非常典型的一类代表, 其使用决策树作为训练弱学习器 $h_m$ 的模型. 具体地, 其算法流程如下

$\begin{align} & for \ D=\{(x_i, y_i)\}_{i=1}^{n} \ and \ loss \ function \ \mathcal{L} \tag{13}\\ & Initialize \ \mathcal{F}_0 = \underset{\gamma}{\mathrm{argmin}} \sum_{i=1}^{n}{\mathcal{L}(y_i, \gamma)} \\ & For \ \ m := 1 \leftarrow M \ \ do \\ & \ \ \ \ \ \ \ \ 1. \ Compute \ gradient \ w.r.t \ \mathcal{F_{m-1}}(x_i) \\ & \ \ \ \ \ \ \ \ r_{im}= - \biggl[ \frac{\partial{\mathcal{L(y_i, \mathcal{F}_{m-1}(x_i))}}}{\partial{\mathcal{F_{m-1}(x_i)}}} \biggr], i = 1, \cdots, n \\ & \ \ \ \ \ \ \ \ 2. \ Fit \ \mathbf{C\&RT} \ decision \ tree \ h_m(x) \ to \ \{(x_i, r_{im})\}_{i=1}^{n} \\ & \ \ \ \ \ \ \ \ 3. \ Compute \ multiplier \ \gamma_{m} \\ & \ \ \ \ \ \ \ \ \gamma_{m} = \underset{\gamma}{\mathrm{argmin}}{\sum_{i=1}^{n}}\mathcal{L}(y_i, \mathcal{F}_{m-1}(x_i) + \gamma \cdot h_m(x_i)) \\ & \ \ \ \ \ \ \ \ 4. \ Update \ the \ model \\ & \ \ \ \ \ \ \ \ \mathcal{F}_m = \mathcal{F}_{m-1} + \gamma_m \cdot h_m \\ & end \\ & return \ \mathcal{F}_M \end{align}$

算法(13)提供了一个GBDT的框架, 其可以拥有多种不同变体且细节相异的实现方式.

XGBoost的具体实现

通过前面章节的阐述我们知道, 在每一轮迭代中, 梯度提升算法使用前序模型的预测值 $\mathcal{F}_{m-1}(x_i)$ 与标签值 $y_i$ 之间的残差 $\hat{D}_m = \{ (x_i, r_{im}) \}, i = 1, \cdots, n$ 对弱学习器 $h_m$ 进行训练, 从而得到更强的强学习器 $\mathcal{F}_m = \mathcal{F}_{m-1} + h_m$ , 其本质是使用损失函数 $\mathcal{Loss}$ 关于自变量 $\mathcal{F}_{m-1}(x_i), i = 1, \cdots, n$ 的一阶导数信息进行梯度下降. 一个很自然的思路是, 如果我们能够使用损失函数 $\mathcal{Loss}$ 关于自变量 $\mathcal{F}_{m-1}(x_i), i = 1, \cdots, n$ 的二阶导数信息来指导弱学习器 $h_m$ 的训练, 必将有助于提高训练的收敛速度, 从而得到性能更为强劲的模型. 而这就是XGBoost所采取的思路. 具体地, 我们从二阶泰勒展开来看待(6)(8), 有

$\begin{align} \sum_{i=1}^{n} \mathcal{L}(y_i, \mathcal{F_{m-1}}(x_i) & + h_m(x_i)) \approx \sum_{i=1}^{n} \biggl[ \mathcal{L}(y_i, \mathcal{F_{m-1}}(x_i)) + g_i \cdot h_m(x_i) + \frac{1}{2} \cdot h_i \cdot h_m(x_i)^2 \biggr] \tag{14} \\ & g_i = \frac{\partial{\mathcal{L}(y_i, \mathcal{F}_{m-1}(x_i))}}{\partial{\mathcal{F_{m-1}(x_i)}}}, h_i = \frac{\partial{\mathcal{L}^2(y_i, \mathcal{F}_{m-1}(x_i))}}{\partial{\mathcal{F_{m-1}(x_i)^2}}} \end{align}$

对于 $i = 1, \cdots, n$ , 由牛顿法 $^{[10]}$ 我们令

$\frac{\partial{\mathcal{L}(y_i, \mathcal{F_{m-1}}(x_i) + h_m(x_i))}}{\partial{h_m(x_i)}} \approx g_i + h_i \cdot h_m(x_i) = 0 \tag{15}$

则有

$h_m(x_i) = - \frac{g_i}{h_i} \tag{16}$

由于(14)是损失函数 $\mathcal{Loss}$ 的二阶近似, 所以我们令 $\frac{\partial{\mathcal{Loss}}}{\partial{h_m(x_i)}} = 0$ 得到(16), 即可保证损失函数 $\mathcal{Loss}$ 在其二阶近似上取得极小值. 换句话说, 使用数据集 $\hat{D}_m = \{ (x_i, -\frac{g_i}{h_i}) \}, i = 1, \cdots, n$ 对弱学习器 $h_m$ 进行训练, 即可利用二阶导数的信息得到更好的弱学习器 $h_m$ . 然而, 这还不完全是XGBoost所采取的策略, XGBoost还在二阶泰勒展开的基础上加入了对弱学习器 $h_m$ 的惩罚项, 防止过拟合的发生. 具体地, 我们在(14)的基础上, 加上对弱学习器 $h_m$ 的惩罚项, 并去掉对模型训练不造成影响的常数项 $\mathcal{L}(y_i, \mathcal{F_{m-1}}(x_i)), i = 1, \cdots, n$

$\begin{align} \sum_{i=1}^{n} & \mathcal{L}(y_i, \mathcal{F_{m-1}}(x_i) + h_m(x_i)) \approx \sum_{i=1}^{n} \biggl[g_i \cdot h_m(x_i) + \frac{1}{2} \cdot h_i \cdot h_m(x_i)^2 \biggr] + \Omega(h_m)\tag{17} \\ & g_i = \frac{\partial{\mathcal{L}(y_i, \mathcal{F}_{m-1}(x_i))}}{\partial{\mathcal{F_{m-1}(x_i)}}}, h_i = \frac{\partial{\mathcal{L}^2(y_i, \mathcal{F}_{m-1}(x_i))}}{\partial{\mathcal{F_{m-1}(x_i)^2}}}, \Omega(h_m) = \gamma T + \frac{1}{2} \lambda ||w||^2 \end{align}$

(17)中加入了 $\Omega(h_m)$ 作为对弱学习器 $h_m$ 的惩罚项. 当使用 $\mathbf{C\&RT}$ 树作为弱学习器 $h_m$ 时, 我们可以将 $h_m$ 表示为 $h_m(x) = w_{q(x)}, q: R^d \rightarrow T, w \in R^T$ , 其中, $q(x)$ 表示将 $d$ 维的特征映射到树叶的索引, 为树结构的表示; $T$ 表示树叶的个数. 假设我们已经得到了树 $q$ , 则对于 $x_i, i = 1, \cdots, n$ , 我们必然可以将其映射到某个叶子 $j, j \in T$ 上, 即 $j \leftarrow q(x_i)$ , 从而有 $h_m(x_i) = w_{j}$ . 我们令 $I_j = \{ i | q(x_i) = j \}$ 为落在叶子 $j, j \in T$ 上的样本的集合, 则 $I_j$ 中的样本全都会被预测为 $h_m(x_i) = w_j$ , 则(17)可进一步改写为

$\begin{align} \sum_{i=1}^{n} \mathcal{L}(y_i, \mathcal{F_{m-1}}(x_i) + h_m(x_i)) & \approx \sum_{i=1}^{n} \biggl[g_i \cdot h_m(x_i) + \frac{1}{2} \cdot h_i \cdot h_m(x_i)^2 \biggr] + \gamma T + \frac{1}{2} \lambda ||w||^2 \\ & \approx \sum_{j=1}^{T} \biggl[ (\sum_{i \in I_j}{}{g_i}) w_j + \frac{1}{2}(\sum_{i \in I_j}{}{h_i} + \lambda)w_j^2 \biggr] + \gamma T \tag{18} \end{align}$

(18)经由叶子重新进行组织, 使得落在同一个叶子的 $h_m(x_i)$ 能够合并在一起. (18)由 $T$ 个一元二次函数组成, 在树的结构 $q$ 已经确定的情况下, 为了使损失函数 $\mathcal{Loss}$ 在其二阶近似中取得最小值, 我们可得叶子的最优取值为

$w_j^\star = - \frac{\sum_{i \in I_j}{}{g_i}}{\sum_{i \in I_j}{}{h_i} + \lambda}, j \in T\tag{19}$

值得注意的是, (16)与(19)是相同的形式, 一脉相承的牛顿法. 此时, 损失函数 $\mathcal{Loss}$ 在其二阶近似中取得最小值

$\mathcal{Loss}_q = - \frac{1}{2} \sum_{j=1}^{T} \frac{( \sum_{i \in I_j}{}{g_i} )^2}{\sum_{i \in I_j}{}{h_i} + \lambda} + \gamma T \tag{20}$

(20)给出了在树的结构已经确定为 $q$ 的情况下, 损失函数 $\mathcal{Loss}$ 在其二阶近似所能取得的最小值, 接下来, 我们只需要确定一个足够优秀的树结构 $q$ , 使得损失函数 $\mathcal{Loss}$ 的取值足够小就可以了. 为什么是足够优秀的树结构 $q$ , 而不是最优秀的树结构 $q$ 呢? 因为我们是无法枚举所有可能的树结构的, 所以, XGBoost采用一种贪心的策略来构建一棵树. 我们需要一种类似于信息增益或者基尼系数的评判标准, 来对一个树的结构进行评优, 确定某一个节点是否值得我们去分裂以及怎么去分裂. 由(19)(20)我们知道, 树结构 $q$ 决定了样本 $x_i, i = 1, \cdots, n$ 落在每个叶子 $j, j \in T$ 上面的情况, 从而决定了 $w_j$ 使损失函数取值最小的最优取值 $w_j^\star$ , 进而决定了损失函数 $\mathcal{Loss}_q$ . 一个很自然的思路是, 我们就使用树结构 $q$ 变化前后的损失函数 $\mathcal{Loss}$ 的变化值 $\Delta \mathcal{Loss}$ 的大小, 来衡量一个结构变化的优劣. 具体地, 设一个树节点分裂前有样本集合 $I$ , 其进行分裂后得到两个叶子, 分别有样本集合 $I_L, I_R$ , 则 $I = I_L \cup I_R$ , 则

$\Delta \mathcal{Loss} = \frac{1}{2} \Biggl[ \frac{( \sum_{i \in I_L}{}{g_i} )^2}{\sum_{i \in I_L}{}{h_i} + \lambda} + \frac{( \sum_{i \in I_R}{}{g_i} )^2}{\sum_{i \in I_R}{}{h_i} + \lambda} - \frac{( \sum_{i \in I}{}{g_i} )^2}{\sum_{i \in I}{}{h_i} + \lambda} \Biggr] - \gamma \tag{21}$

(21)给出了树节点分裂前后损失函数 $\mathcal{Loss}$ 减少的数值 $\Delta{\mathcal{Loss}}$ , 通过比较该值, 我们便可以评判出最优的分裂方案了. 有了(21), XGBoost就能从一个单叶子节点开始, 以贪心的策略不断地尝试节点分裂的方案, 进而不断地分裂生长, 最终长成一棵完整的树.

如何进行一个树节点的分裂, 看起来已经成为一个至关重要的步骤了. XGBoost提供了两种分裂的方式, 具体地

Exact Greedy Algorithm. 对于每一维特征, 该算法针对此特征对样本集进行排序, 然后遍历每个样本在该特征上的取值并进行分裂, 计算出 $\Delta \mathcal{Loss}$ 以确定最佳分裂特征和分裂点.

$\begin{align} & Exact \ Greedy \ Algorithm \tag{22} \\ & Input: I, instance \ set \ of \ current \ node. \\ & G \leftarrow \sum_{i \in I}^{}{g_i}, H \leftarrow \sum_{i \in I}^{}{h_i}, \\ & For \ \ k := 1 \leftarrow d \ \ do \\ & \ \ \ \ \ \ \ \ G_L \leftarrow 0, H_L \leftarrow 0 \\ & \ \ \ \ \ \ \ \ For \ \ j \ \ in \ \ sorted(I, by \ x_{jk}) \ \ do \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ G_L \leftarrow G_L + g_j, H_L \leftarrow H_L + h_j \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ G_R \leftarrow G - G_L, H_R \leftarrow H - H_L \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ score \leftarrow max(score, \frac{G_L^2}{H_L + \lambda} + \frac{G_R^2}{H_R + \lambda} - \frac{G^2}{H + \lambda}) \\ & \ \ \ \ \ \ \ \ end \\ & Split \ with \ the \ max \ score \end{align}$

Exact Greedy Algorithm进行了一次完全的扫描, 从而得到最佳的分裂方案. 其优点是, 能确保找到最佳的分裂方案, 然而缺点也非常明显, 当特征的维数 $d$ 和样本个数 $n$ 非常大时, 算法的执行会非常消耗时间和资源. 为此, XGBoost提出了另一种近似的算法以寻找分裂特征和分裂点.

2. Approximate Algorithm. 当训练集的样本量为千万甚至上亿级别时, 对于任一特征 $k$ , 这意味着寻找特征 $k$ 的分裂点需要执行同样数量级的尝试操作. 如果我们能通过减少特征 $k$ 所需要尝试分裂点的个数, 那自然能减少大量的计算量, 这便是Approximate Algorithm所采取的思路, Approximate Algorithm试图从特征 $k$ 中较为均匀地采样分裂点. 具体地, 对于特征 $k$ , 我们有数据集 $D_k = \{(x_{ik}, h_i)\}, i = 1, \cdots, n$ , 其中, $x_{ik}$ 为样本 $x_i$ 的第 $k$ 个特征值, $h_i$ 为样本 $x_i$ 所对应的二阶导数值. 我们定义如下的排序函数

$r_k(z) = \frac{1}{\sum_{(x, h) \in D_k}^{}{h}} \sum_{(x,h) \in D_k, x \lt z}^{}{h} \tag{23}$

(23)表示特征值 $x_{ik} \lt z, i = 1, \cdots,n$ 的样本占全体样本的比重, 其定义与概率密度函数的定义非常地相似. 为什么样本 $x_i$ 所占的比重要用其所对应的二阶导数 $h_i$ 来表示呢? 我们将(17)进行一下调整, 就可以看出端倪. (17)调整为

$\begin{align} \sum_{i=1}^{n} \mathcal{L}(y_i, \mathcal{F_{m-1}}(x_i) + h_m(x_i)) & \approx \sum_{i=1}^{n} \biggl[g_i \cdot h_m(x_i) + \frac{1}{2} \cdot h_i \cdot h_m(x_i)^2 \biggr] + \Omega(h_m) \\ & \approx \sum_{i=1}^{n} \biggl[ \frac{1}{2}h_i(h_m(x_i) - (- \frac{g_i}{h_i}))^2 \biggr] + \Omega(h_m) + constant \tag{24} \end{align}$

正如我们在(16)中由牛顿法得出, $h_m(x_i)$ 以 $-\frac{g_i}{h_i}$ 为目标进行学习, 而此时二阶导数 $h_i$ 正是样本 $x_i$ 所产生损失的权重, 其描述了样本 $x_i$ 在损失函数 $\mathcal{Loss}$ 中的重要性, 所以我们才使用二阶导数 $h_i$ 在(23)中描述特征值 $x_{ik} \lt z, i = 1, \cdots,n$ 的样本占全体样本的比重. 有了(23), 我们就可以比较均匀地对特征 $k$ 的分裂点进行采样了. 我们定义分裂点集为 $\{ s_{k1}, \cdots, s_{kl} \}$ ,

$|r_k(s_{k,j}) - r_k(s_{k,j+1})| < \epsilon, s_{k,1} = \underset{i}{\mathrm{min}}{x_{ik}}, s_{k,l} = \underset{i}{\mathrm{max}}{x_{ik}} \tag{25}$

使用 $\epsilon$ 进行调节, 可获得大致 $\frac{1}{\epsilon}$ 个分裂点, 这使得我们需要尝试的分裂点数大大地减少了. 由(25)我们可得

$\begin{align} & Approximate \ Algorithm \tag{26} \\ & For \ \ k := 1 \leftarrow d \ \ do \\ & \ \ \ \ \ \ \ \ Propose \ S_k = \{s_{k1}, \cdots, s_{kl} \} \ by \ percentiles \ on \ feature \ k. \\ & \ \ \ \ \ \ \ \ Proposal \ can \ be \ done \ per \ tree \ (global) \ or \ per \ \ split(local) \\ & end \\ & For \ \ k := 1 \leftarrow d \ \ do \\ & \ \ \ \ \ \ \ \ G_{kv} \leftarrow = \sum_{j \in \{j|s_{k,v} \geq x_{j,k} \gt s_{k,v-1} \}}{}{g_j} \\ & \ \ \ \ \ \ \ \ H_{kv} \leftarrow = \sum_{j \in \{j|s_{k,v} \geq x_{j,k} \gt s_{k,v-1} \}}{}{h_j} \\ & end \\ & Follow \ same \ step \ as \ in \ (22) \ to \ find \ max \ score \\ & only \ among \ proposed \ splits. \\ \end{align}$

在(26)中, 我们便只需围绕分裂点集 $\{ s_{k1}, \cdots, s_{kl} \}$ 来进行 $\Delta{\mathcal{Loss}}$ 的计算了, 完成计算后, 便只需沿着(22)的方法进行操作即可.

GBDT + LR 进行点击率预估

CTR(Click-Through Rate Prediction, 点击率预估)在推荐系统、计算广告中是一个重要的环节, CTR的性能将直接影响用户体验和广告营收. 使用LR进行CTR预估, 在工业级的推荐系统中是很常见的技术方案. LR是一种广义线性模型, 其使用 $\mathcal{Sigmoid}$ 函数将模型的预测值映射成一个概率值, 并使用 $\mathcal{P}(y = 1 | x)$ 作为CTR预估的分数值来进行判断. LR的优点在于其足够简单, 非常容易进行扩展, 可轻松处理上亿级别的数据; 其缺点则在于其太简单, 没有足够强的学习能力, 需要在特征工程阶段由人工预先分析有效特征、进行特征组合等操作. 熟悉推荐系统的同学都知道, 特征组合对于CTR模型的训练非常重要, LR作为一种线性模型, 在特征组合问题上有着天然缺陷, 其并没有考虑特征之间的相互关系. 如何使有效特征的学习和特征组合的学习自动化, 减少对特征工程的依赖, 是学界的一个重要课题.

Facebook $^{[11]}$ 提出了一种使用GBDT解决LR模型特征发现和特征组合问题的方案. 由前述章节GBDT原理的阐述我们可以发现, 使用GBDT的决策路径作为LR模型的特征输入本身就是一种天然的特征发现与特征组合的过程. 使用GBDT进行特征发现和特征组合的核心思想是: 样本 $x_i, i = 1, \cdots,n$ 经过GBDT每棵树的路径都作为LR的一维特征, 以期达到路径上所有特征进行组合的效果. 使用已有的特征训练GBDT模型, 然后利用GBDT模型来构造新的特征向量. 新特征向量由 $0 / 1$ 组成, 其每个特征对应GBDT模型树的一个叶子节点, 当样本落在某个叶子节点上时, 该位特征取值为1, 否则取值为0. 新特征向量的长度等于GBDT模型里所有树包含的叶子结点数之和.

如上图所示, 图中的GBDT模型由两棵树组成, 共5个叶子节点, 故 $x$ 经由GBDT模型处理后将生成5维的新特征向量. 假设其分别落在第一棵树的2号叶子节点和第二棵树的1号叶子节点, 则生成的新特征向量为 $[0, 1, 0,1,0]^\top$ , 而后再使用LR模型进行后续操作. 论文 $^{[11]}$ 中树的数量达到500棵, 每棵树的叶子节点数不超过12.

使用GBDT代替人工的特征发现和特征组合在工业级的推荐系统中已经得到广泛的应用, 其表现出了卓越的性能. 另外, 除了与LR进行糅合, 还有一些工作尝试了GBDT+FM等, 总的来说都不逊色于人工的特征.

总结

本文从集成学习的理论基础出发, 阐述了bagging与boosting的数学原理. 并着重阐述了GBDT与XGBoost的算法流程和具体实现, 最后给出了GBDT+LR进行CTR预估的具体示例. 集成学习是非常活跃的机器学习研究领域, 学术界的产出也与工业界的使用联系得相当紧密.

引用

[1] Wikipedia contributors. (2019, March 22). Gradient boosting. InWikipedia, The Free Encyclopedia. Retrieved 13:00, April 10, 2019, fromhttps://en.wikipedia.org/w/index.php?title=Gradient_boosting&oldid=888968392

[2] Zhang, J. (2016). GBDT算法原理深入解析. [online] Zybuluo.com. Available at: https://www.zybuluo.com/yxd/note/611571 [Accessed 19 Mar. 2019].

[3] Chen, T., & Guestrin, C. (2016, March 9). XGBoost: A Scalable Tree Boosting System. http://arXiv.org. http://doi.org/10.1145/2939672.2939785

[4] TccccD. (2018).GBDT与XGBOOST的联系和区别 - TcD的博客 - CSDN博客. [online] Available at: https://blog.csdn.net/u011094454/article/details/78948989 [Accessed 10 Apr. 2019].

[5] Li, C. (2019).A gentle introduction of gradient boosting. [online] Chengli.io. Available at: http://www.chengli.io/tutorials/gradient_boosting.pdf [Accessed 20 Mar. 2019].

[6] Zhou, Z. (2016).机器学习. 1st ed. 北京: 清华大学出版社, pp.45-46.

[7] Zhang, L. (2019).为什么负梯度是函数值减小的最快方向. [online] Zhuanlan.zhihu.com. Available at: https://zhuanlan.zhihu.com/p/57601606 [Accessed 18 Apr. 2019].

[8] Wikipedia contributors. (2019, April 11). Decision tree learning. InWikipedia, The Free Encyclopedia. Retrieved 14:31, April 18, 2019, fromhttps://en.wikipedia.org/w/index.php?title=Decision_tree_learning&oldid=891961623

[9] Wang, X. (2018).从XGB到LGB：美团外卖树模型的迭代之路. [online] Itcodemonkey.com. Available at: https://www.itcodemonkey.com/article/9065.html [Accessed 20 Apr. 2019].

[10] Wikipedia contributors. (2019, April 18). Newton's method. InWikipedia, The Free Encyclopedia. Retrieved 03:42, April 21, 2019, fromhttps://en.wikipedia.org/w/index.php?title=Newton%27s_method&oldid=892955071

[11] He, X. and Pan, J. (2014).Practical Lessons from Predicting Clicks on Ads at Facebook. [online] Facebook Research. Available at: https://research.fb.com/publications/practical-lessons-from-predicting-clicks-on-ads-at-facebook/ [Accessed 22 Apr. 2019].

posted @ 2019-09-25 16:18 Le1B_o 阅读(266) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

LeeB_o

XGBoost

摘要

梯度提升算法的理论基础

GBDT的算法框架

XGBoost的具体实现

GBDT + LR 进行点击率预估

总结

公告