Orion-MSP:深度学习终于在表格数据上超越了XGBoost
表格数据一直是深度学习的老大难问题。这些年CV和NLP领域被Transformer统治得服服帖帖,但在真正的业务场景里,面对表格这类的结构化数据,XGBoost这些梯度提升树还是稳坐钓鱼台。
为什么会这样?问题其实很简单。图像的像素排列有空间位置关系,文本有上下文顺序,但表格里的列是啥顺序都行——年龄放第一列和放最后一列没区别。而且这些列的类型完全不同:有数值、有类别,有的服从正态分布有的严重偏态。同样是数字50,在年龄列和交易量列意义天差地别。
ArXiv上最近新有篇论文叫"Orion-MSP: Multi-Scale Sparse Attention for Tabular In-Context Learning",来自Lexsi Labs的团队,算是正面解决了这个问题。
上下文学习这条路走得通但是有坎
最近这两年,受大语言模型启发,研究者开始尝试给表格数据做foundation model。核心想法是in-context learning(ICL)——不用针对每个新数据集重新训练,直接给模型看几个样本示例,它就能推断出任务模式。
TabPFN和TabICL是这方面的先驱。它们在海量合成数据集上做meta-training,让Transformer学会表格数据的一般规律。理想情况是让一个模型打天下,新来个表格数据,喂几个标注样本就能zero-shot分类。对AutoML来说这简直是梦想场景。
但第一代模型撞上了三堵墙:
单一尺度的视野太窄。这些模型用统一的粒度处理所有特征。就像你盯着照片看,只能选一个固定距离——凑近了看到线头,但看不出整体是件毛衣;退远了知道是毛衣,但抓不到细节。真实数据的结构是多层次的:底层是单个特征的交互(比如年龄和收入的关系),中层是特征组(人口统计信息这一块),顶层是大的数据分区(个人属性 vs 行为数据),单尺度模型对这种层次结构基本是盲的。
O(m²)的计算瓶颈卡死了宽表。标准的dense attention让每个特征token关注所有其他token,对于m个特征,复杂度是O(m²)。几十上百个特征还能扛,但基因组数据、金融衍生品、传感器阵列这种动辄上千特征的场景就彻底歇菜了,内存爆掉是常事。
信息只能单向流动。TabICL这类模型的架构是流水线式的:先embedding列,再建模行间关系,最后ICL预测。下游发现的模式(比如数据集层面的统计特性)没法反馈回去优化上游的表示。这就很浪费。
Orion-MSP针对这三个问题给出了对应的解法。
https://avoid.overfit.cn/post/53f34259ddaa4ed7a0337b1c1b447107

浙公网安备 33010602011771号