分位数回归+共形预测:Conformalized Quantile Regression实现更可靠的预测区间
预测不确定性量化在数据驱动决策过程中具有关键作用。无论是评估医疗干预的风险概率还是预测金融市场的价格波动范围,我们常需要构建预测区间——即以特定置信度包含目标真值的概率区间。
**分位数回归(Quantile Regression, QR)**作为一种传统统计方法,长期以来被用于预测此类区间。与常规回归方法建模条件均值不同,QR直接对条件分位数进行建模,例如预测结果的第90百分位数。
然而单纯依赖QR在实践应用中存在显著局限性:其生成的区间在面对新数据时往往校准不足(区间过窄或过宽)。**Conformalized Quantile Regression (CQR)正是为解决这一问题而提出的创新方法,它将分位数回归与共形预测(Conformal Prediction)**技术相结合,生成既具有_自适应性_(区间宽度随输入特征动态变化,类似QR)又具有_严格统计保证_(能够达到预设的覆盖率目标)的预测区间。
本文将深入探讨CQR的理论基础、技术实现、与传统方法的比较,以及它在医疗、金融、能源和气候科学等多个领域的实际应用。
从分位数回归到共形预测
**分位数回归(QR)**是一种历史悠久的统计技术,可追溯至19世纪Galton的研究,并在1970年代得到形式化。QR方法直接估计目标变量的条件分位数,而非条件均值。例如在房地产市场分析中,QR不仅可预测给定特征下的平均房价,还能估计给定特征下房价的第90百分位值。
QR通过优化_尖点损失函数(pinball loss)_(亦称分位数损失)学习预测Y在X条件下的q分位数。QR的主要优势之一是能够自然处理**异方差性(heteroscedasticity)**问题——例如,第5百分位与第95百分位预测值之间的区间可根据数据局部噪声水平自动调整宽窄。
这种特性使QR能够生成局部自适应预测区间:在数据波动较大的区域产生更宽的区间,而在数据表现稳定的区域生成更窄的区间,从而更精确地反映预测的不确定性分布。
经典QR的关键限制在于校准问题。QR本身无法保证未来数据点有90%会落在所谓的"90%预测区间"内。理论上,QR区间的覆盖率仅在_渐近条件下_(样本趋于无穷且模型规范正确)才能达到预期水平。
在有限样本情况下,或当模型设定不完全正确时,实际覆盖率可能与名义覆盖率存在显著偏差。图1清晰地展示了这一问题:图中展示的分位数回归模型生成的90%预测区间(阴影区域)未能完全覆盖数据样本,部分观测点落在区间之外,表明该"90%"区间在实践中的覆盖率不足。
与此相对,归纳共形预测(Inductive Conformal Prediction, ICP)作为一种现代不确定性量化方法,将校准作为其核心目标。ICP构建的预测区间具有无分布假设的有限样本覆盖保证。本质上共形方法可以应用于_任意_点预测模型(通常是均值回归模型),然后利用单独的校准数据集调整预测结果,使预测区间_通过设计_达到目标覆盖率。
https://avoid.overfit.cn/post/915f13f1abf5462092bdf0b9f0e7cdc1