LightGBM论文精度(未完)

本博客大致翻译一下LightGBM论文的主旨要义,方便以后复习。

🌟代表存在问题

 

论文名称:《LightGBM: A Highly Efficient Gradient Boosting Decision Tree》

摘要

  GBDT,包括其工程优化如XGBoost和pGBDT等,存在着当特征维度升高且数据量增大时,效率和可伸缩性的下降。产生该问题主要原因是:对于每个特征,他们需要扫描所有数据实例以估计所有可能的分裂点的信息增益,这非常耗时。(原文是:A major reason is that for each feature, they need to scan all the data instances to estimate the information gain of all possible split points, which is very time consuming)。为了解决这个问题,本文提出了两点优化:基于梯度的单侧采样 Gradient-based One-Side Sampling (GOSS) and 独家捆绑功能(what?) Exclusive Feature Bundling (EFB)。前者是使用具有较大梯度的实例来估计信息增益,后者通过使用某种方式和贪心策略,来减少特征数量。

 

绪论

  GBDT因为其优点,如效率高、准确性高、可解释性好等,在多分类、点击预测、学习排序等方面表现优秀。近年来,随着大数据的出现(在特征数量和实例数量方面),GBDT面临着新的挑战,特别是在准确性和效率之间的权衡(tradeoff)。 对于每个特征,GBDT的常规实现需要扫描所有数据实例以估计所有可能的分裂点的信息增益。 因此,它们的计算复杂性将与特征数量和实例数量成比例。 这使得这些实现在处理大数据时非常耗时。

  一种直截了当的做法就是减少特征维度,减少数据量。GBDT采样不透明,别的模型有一些通过样本权重的方式加速训练,但是在GBDT上不太work。本文提出了两个创新点。

  1.   基于梯度的单侧采样(GOSS)。 虽然GBDT中的数据实例没有本机权重,但我们注意到具有不同梯度的数据实例在信息增益的计算中起着不同的作用。 特别是,根据信息增益的定义,具有较大梯度的那些实例(例如训练不足的实例)将对信息增益做出更多贡献。 因此,当对数据实例进行下采样时,为了保持信息增益估计的准确性,我们应该更好地保持那些具有大梯度(例如,大于预定阈值,或者在最高百分位数之间)的实例,并且仅随机删除那些具有小渐变的实例。 我们证明,这种处理可以导致比均匀随机采样更准确的增益估计,具有相同的目标采样率,特别是当信息增益的值具有大范围时。
  2. 🌟独家功能捆绑(EFB)。 通常在实际应用中,尽管存在大量特征,但特征空间非常稀疏,这使我们有可能设计出几乎无损的方法来减少有效特征的数量。 具体地说,在稀疏特征空间中,许多特征(几乎)是唯一的,即它们很少同时取非零值。 示例包括单热特征(例如,文本挖掘中的单热字表示)。 我们可以安全地捆绑这些独家功能。 为此,我们通过将最佳捆绑问题减少到图着色问题来设计一种有效的算法(通过将特征作为顶点并为每两个特征添加边缘,如果它们不相互排斥),并通过贪婪算法解决它。 恒定近似比。(这一部分我是直接翻译的,需要看完论文再改)

 

posted @ 2019-09-04 16:17  Vancuicide  阅读(588)  评论(0编辑  收藏  举报