【转】LambdaMART 介绍

　　传统的搜索引擎排序（Ranking）问题，通常会涉及到很多的排序策略。这些策略根据不同的特征，在不同的适用范围中起作用。因此，一个传统的排序算法，至少涉及到两方面的内容：策略的制定，以及不同策略的组合。策略的组合需要考虑策略分析适用的特征，以及相应策略的适用情况。根据这些内容，通过人工或者半机器半人工的方式组合起来，才能组成一个可堪使用的排序算法。

　　和自然语言处理中遇到的情况一样，随着数据量的增加，使用人工的方式做策略的组合，会变得越来越困难。因此，将机器学习引入搜索引擎排序问题，也就是相当自然的事情了。在排序问题中使用的机器学习算法，被称为 Learning to Rank (LTR) 算法，或者 Machine-Learning Rank (MLR) 算法。

　　LTR 算法通常有三种手段，分别是：Pointwise、Pairwise 和 Listwise。Pointwise 和 Pairwise 类型的 LTR 算法，将排序问题转化为回归、分类或者有序分类问题。Listwise 类型的 LTR 算法则另辟蹊径，将用户查询（Query）所得的结果作为整体，作为训练用的实例（Instance）。

　　LambdaMART 是一种 Listwise 类型的 LTR 算法，它基于 LambdaRank 算法和 MART (Multiple Additive Regression Tree) 算法，将搜索引擎结果排序问题转化为回归决策树问题。MART 实际就是梯度提升决策树（GBDT, Gradient Boosting Decision Tree）算法。GBDT 的核心思想是在不断的迭代中，新一轮迭代产生的回归决策树模型拟合损失函数的梯度，最终将所有的回归决策树叠加得到最终的模型。LambdaMART 使用一个特殊的 Lambda 值来代替上述梯度，也就是将 LambdaRank 算法与 MART 算法加和起来。考虑到 LambdaRank 是基于 RankNet 算法的，所以在搞清楚 LambdaMART 算法之前，我们首先需要了解 MART、RankNet 和 LambdaRank 是怎么回事。

MART 算法

MART，即多重增量回归树（Multiple Additive Regression Tree）有许多名字：

MART - 多重增量回归树（Multiple Additive Regression Tree）
GBDT - 梯度渐进决策树（Gradient Boosting Decision Tree）
GBRT - 梯度渐进回归树（Gradient Boosting Regression Tree）
TreeNet - 决策树网络（Tree Net）

这些名字的含义都一样，都是一个意思。

从这些名字，我们可以看出 MART 的一些特征：

使用决策树来预测结果；
用到的决策树有很多个；
每个树都比之前的树改进一点点，逐渐回归、拟合到真实结果。

实际上，这三点就是 Boosting 思想的精髓了。Boosting 思想源自 Kearns 和 Valiant 的提问，并最终从 Robert Schapire 在 1990 年的论文 The Strength of Weak Learnablity 中对上述问题明确的回答发展起来。

Boosting（渐进）思想

Boosting 思想，尝试通过不断迭代弱模型（Weak Learner），通过叠加弱模型的方式，渐进地逼近真实情况，起到足以预测真实值的强模型的作用。显而易见，Boosting 思想至少需要解决两个问题：

如何保证每一次迭代都对解决问题有所帮助，或者说如何确定迭代步骤中拟合的方向？
如何将每一次迭代产生的弱模型有效地叠加起来？

下面，我们通过 AdaBoost（Adaptive Boosting，自适应渐进法）来回答这两个问题。

AdaBoost

AdaBoost 是 Yoav Freund 和 Robert Schapire 提出的机器学习算法。两人因为该算法获得了 2003 年的哥德尔奖。

AdaBoost 是一种用于分类的算法，它的运行过程大致可以理解如下：

制作一个弱分类器（实际是一个决策树），去拟合实际情况，我们将它记录为 WL1。
运行 WL1，记录分类错误的那些样本。接下来，赋予这些被错误分类的样本比较高的权重，进行第二次拟合，得到新的弱分类器 WL2。
依次运行 WL1 - WL2，记录分类错误的那些样本。接下来，赋予这些被错误分类的样本比较高的权重，进行第三次拟合，得到新的弱分类器 WL3。
依次运行 WL1 - WL2 - WL3，如此迭代……

上图来自 Pattern Recognition and Machine Learning 一书的 660 页，讲述的是运用 Boosting 思想进行分类的过程。

蓝色和红色的圆圈，代表两类样本，圆圈的大小代表当前该点的权重；绿色的线条代表训练既得分类器模型；虚线表示当前训练新增的分类器模型。

可以看到，在不断的迭代过程中，每一次迭代，分类器都会关注之前区分错误的那些样本点，进行有针对性的处理。因此，在进行到 150 次迭代之后（

整个过程，用数学符号表达如下（PRML Page 658）：

在这里：

最开始的时候，每个样本点的权重都一致。随着算法不断迭代，被错误分类的样本，权重不断加强，与此同时被正确分类的样本，权重不断减弱。可以想象，越往后，算法越关注那些容易被分错的样本点，从而最终解决整个问题。

现在，我们至少可以从 AdaBoost 的角度回答上一小节的两个问题了：

AdaBoost 通过调整样本的权值，来确定下一轮迭代中弱模型的拟合方向：提升分类错误的样本的权值，降低分类正确的样本的权值。
AdaBoost 用一个「加法模型」，将每一轮迭代得到的弱模型组合叠加起来，得到一个有效的强模型。

MART 的数学原理

MART 是一种 Boosting 思想下的算法框架，它的目标是寻找强模型

f^(x) = arg max f (x) E [L (y, f (x)) ∣∣ x]

和 AdaBoost 一样，训练之后的 MART 模型也是一个加法模型，形式如下：

f^(x) = f^M (x) = \sum m = 1 M f m (x)

这里：

那么，关于 MART 的 Boosting，我们还剩下一个回答，即：如何保证每一次迭代都对解决问题有所帮助，或者说如何确定迭代步骤中拟合的方向。接下来的分析，我们就来解决这个问题。

假设我们已经迭代了

δ f^m + 1 = f^m + 1 - f^m = f m + 1 (1)

现在我们要求这个

L = L ((x, y), f) = L (y, f (x) ∣∣ x)

来描述预测函数

δ L m + 1 = L ((x, y), f^m + 1) - L ((x, y),

考虑到

δ L m + 1 \approx \partial L ( ( x , y ) , f ^ m ) \partial f ^ m \cdot δ

若取

δ f^m + 1 = - g i m = - \partial L ( ( x , y ) , f ^ m

则必有

{i=1,2,…,N∣∣∣(xi,−∂L((xi,yi),f^m{i=1,2,…,N|(xi,−∂L((xi,yi),f^m(xi))∂f^m(xi))}

式

决策树实际上将样本空间划分成了若干区域，并对每个划分区域赋上预测值。假设

f m (x) = h m (x; R m, γ m),

也就是

f^(x) = \sum m = 1 M f m (x) = \sum m = 1 M h m (x; R m,

那么，MART 的每一步也就是要解优化问题：

h m (x; R m, γ m) = arg min R, γ \sum i = 1 N (- g i m - F

现在我们引入一个非常小的正数

小结

MART 是一种 Boosting 思想下的算法框架。它通过加法模型，将每次迭代得到的子模型叠加起来；而每次迭代拟合的对象都是学习率与损失函数梯度的乘积。这两点保证了 MART 是一个正确而有效的算法。

MART 中最重要的思想，就是每次拟合的对象是损失函数的梯度。值得注意的是，在这里，MART 并不对损失函数的形式做具体规定。实际上，损失函数几乎只需要满足可导这一条件就可以了。这一点非常重要，意味着我们可以把任何合理的可导函数安插在 MART 模型中。LambdaMART 就是用一个

Lambda

Lambda 的设计，最早是由 LambdaRank 从 RankNet 继承而来。因此，我们先要从 RankNet 讲起。

RankNet 的创新

Ranking 常见的评价指标都无法求梯度，因此没法直接对评价指标做梯度下降。

RankNet 的创新之处在于，它将不适宜用梯度下降求解的 Ranking 问题，转化为对概率的交叉熵损失函数的优化问题，从而适用梯度下降方法。

RankNet 的终极目标是得到一个带参的算分函数：

s = f (x; w) .

于是，根据这个算分函数，我们可以计算文档

s i = f (x i; w)

然后根据得分计算二者的偏序概率

P i j = P (x i ⊳ x j) = exp ( σ ( s i - s j ) ) 1 + exp (

再定义交叉熵为损失函数

L i j = - P ¯ i j log P i j - (1 - P ¯ i j) log (1 -

进行梯度下降

w k \to w k - η \partial L \partial w k .

再探梯度

这里每条横线代表一条文档，其中蓝色的表示相关的文档，灰色的则表示不相关的文档。在某次迭代中，RankNet 将文档的顺序从左边调整到了右边。于是我们可以看到：

RankNet 的梯度下降表现在结果的整体变化中是逆序对的下降：13 → 11
RankNet 的梯度下降表现在单条结果的变化中，是结果在列表中的移动趋势（图中黑色箭头）
我们通常更关注前几条文档的排序情况，因此我们会期待真正的移动趋势如图中红色箭头所示

那么问题就来了：我们能不能直接定义梯度呢？

LambdaRank

现在的情况是这样：

RankNet 告诉我们如何绕开 NDCG 等无法求导的评价指标得到一个可用的梯度；
上一节我们明确了我们需要怎样的梯度；
梯度（红色箭头）反应的是某条结果排序变化的趋势和强度；
结果排序最终由模型得分

于是，我要扼住 !

先看看 RankNet 的梯度

\partial L \partial w k = \sum ( i , j ) \in P \partial L i j \partial w k = \sum ( i , j )

\partial L i j \partial s i = \partial { 1 2 ( 1 - S i

于是我们定义

λ i j = def \partial L i j \partial s i = - \partial L i j

λ i j = def - σ 1 + exp ( σ ( s i - s j ) ) ,

λ i j = def - σ 1 + exp ( σ ( s i - s j ) ) \cdot ∣ Δ

对于具体的文档

λ i = \sum (i, j) \in P λ i j - \sum (j, i) \in P λ i j .

也就是说：每条文档移动的方向和趋势取决于其他所有与之 label 不同的文档。

现在回过头来，看看我们做了什么？

分析了梯度的物理意义；
绕开损失函数，直接定义梯度。

当然，我们可以反推一下 LambdaRank 的损失函数：

L i j = log {1 + exp (- σ (s i - s j))} \cdot ∣ Δ Z i j ∣ .

LambdaMART

现在的情况变成了这样：

MART 是一个框架，缺一个「梯度」；
LambdaRank 定义了一个「梯度」。

让他们在一起吧！于是，就有了 LambdaMART。

LambdaMART 的优点

LambdaMART 有很多优点，取一些列举如下：

直接求解排序问题，而不是用分类或者回归的方法；
可以将 NDCG 之类的不可求导的 IR 指标转换为可导的损失函数，具有明确的物理意义；
可以在已有模型的基础上进行 Continue Training；
每次迭代选取 gain 最大的特征进行梯度下降，因此可以学到不同特征的组合情况，并体现出特征的重要程度（特征选择）；
对正例和负例的数量比例不敏感。

posted on 2017-05-01 10:12 sxron 阅读(1510) 评论(0) 收藏举报