Orion-MSP：深度学习终于在表格数据上超越了XGBoost

表格数据一直是深度学习的老大难问题。这些年CV和NLP领域被Transformer统治得服服帖帖，但在真正的业务场景里，面对表格这类的结构化数据，XGBoost这些梯度提升树还是稳坐钓鱼台。

为什么会这样？问题其实很简单。图像的像素排列有空间位置关系，文本有上下文顺序，但表格里的列是啥顺序都行——年龄放第一列和放最后一列没区别。而且这些列的类型完全不同：有数值、有类别，有的服从正态分布有的严重偏态。同样是数字50，在年龄列和交易量列意义天差地别。

ArXiv上最近新有篇论文叫"Orion-MSP: Multi-Scale Sparse Attention for Tabular In-Context Learning"，来自Lexsi Labs的团队，算是正面解决了这个问题。

上下文学习这条路走得通但是有坎

最近这两年，受大语言模型启发，研究者开始尝试给表格数据做foundation model。核心想法是in-context learning（ICL）——不用针对每个新数据集重新训练，直接给模型看几个样本示例，它就能推断出任务模式。

TabPFN和TabICL是这方面的先驱。它们在海量合成数据集上做meta-training，让Transformer学会表格数据的一般规律。理想情况是让一个模型打天下，新来个表格数据，喂几个标注样本就能zero-shot分类。对AutoML来说这简直是梦想场景。

但第一代模型撞上了三堵墙：

单一尺度的视野太窄。这些模型用统一的粒度处理所有特征。就像你盯着照片看，只能选一个固定距离——凑近了看到线头，但看不出整体是件毛衣；退远了知道是毛衣，但抓不到细节。真实数据的结构是多层次的：底层是单个特征的交互（比如年龄和收入的关系），中层是特征组（人口统计信息这一块），顶层是大的数据分区（个人属性 vs 行为数据），单尺度模型对这种层次结构基本是盲的。

O(m²)的计算瓶颈卡死了宽表。标准的dense attention让每个特征token关注所有其他token，对于m个特征，复杂度是O(m²)。几十上百个特征还能扛，但基因组数据、金融衍生品、传感器阵列这种动辄上千特征的场景就彻底歇菜了，内存爆掉是常事。

信息只能单向流动。TabICL这类模型的架构是流水线式的：先embedding列，再建模行间关系，最后ICL预测。下游发现的模式（比如数据集层面的统计特性）没法反馈回去优化上游的表示。这就很浪费。

Orion-MSP针对这三个问题给出了对应的解法。

https://avoid.overfit.cn/post/53f34259ddaa4ed7a0337b1c1b447107

posted @ 2025-11-07 20:07 deephub 阅读(3) 评论(0) 收藏举报

刷新页面返回顶部

deephub

overfit深度学习

Orion-MSP：深度学习终于在表格数据上超越了XGBoost

上下文学习这条路走得通但是有坎

公告