UMI多层次因子模型论文解读

UMI因子模型论文解读

论文背景

img
该论文主要介绍了一个市场非理性因子模型,以增强股票收益预测

在2025年发表在KDD上

现有的深度股票预测模型尚未充分考虑非理性因素的影响

投机行为、市场操纵和心理偏差等特殊非理性因子存在相对抽象性

框架方法

首先来介绍一下股票层面非理性因子的构建,这里主要是输出股票的理论价格

股票层面的非理性事件包括:个体投资者过度反应,局部投机行为,心理偏差

如果实际价格显著偏离理论价格,那么可以认为存在非理性因素

由于理论价格是一个隐藏因子,无法直接从历史股票特征和价格中观察到。

在经典的量化交易策略中,解决这一挑战的一种方法是使用与目标股票密切相关的股票价格作为目标股票理性价格的“代理”。

代理股票的价格预计与目标股票具有协整关系。

协整关系的定义如下

在论文中
alt text
所以,期望理论(代理)价格和实际价格应具有协整关系

如果存在非理性事件,理论价格和实际价格的差值可能相当大,但是长期来看,期望价格和实际价格一定是高度相关的

可以引入DF检验(检验是否是平稳序列)作为损失函数
alt text
如果ρ的绝对值<1,则表示ut是一个协整序列。

最小化残差是利用了最小二乘法的思想,根据协整关系的定义,ut将会呈现线性关系。

alt text
alt text
用市场中所有 j≠i 的股票来生成t时期的候选价格,然后放进注意力机制进行加权得到理论价格,作为股票因子。

下面是市场层面非理性因子的构建
股票的波动应该是相对独立的,很少出现所有股票(或绝大多数股票)在同一时间点大幅度同方向波动的现象。如果出现这种异常同步性,就可能预示着非理性事件的存在。
这里主要使用了两个任务来进行学习(子市场比较学习,市场同步性预测)

市场层面非理性事件:集体情绪爆发,羊群效应等

alt text
在子市场比较学习中,会把同一天的市场划分为两个等量互斥子集
alt text
相当于rt也融合了过去的特征

让模型学习,使得同一天的市场嵌入尽可能相似,不同天的市场嵌入尽可能不同

在市场同步性预测中,会把t-1时刻整个市场所有股票提取出来然后得到一个市场表示,通过这个市场表示预测t时刻市场是上涨/下跌/波动的

Δt用一个向量表示,使用所有股票在t的实际收益率来判断市场状况

具体来说,如果某支股票的收益率大于(小于)某个阈值,可以认为该股票是大涨(大跌)股票

如果(大涨股票数 - 大跌股票数) / 总股票数 > 0.6 ,判定市场是大涨,反过来是大跌,其余情况就判定为波动

最后可以得到一个市场嵌入,表示市场因子。
alt text
完整的框架示意图如图所示

可以看到在刚开始把理论价格和实际价格的差值拼接到原始特征后,然后通过一个自注意力加权到一个向量,最后拼接上市场嵌入映射到收益率

最后模型可以预测到t时间某支股票的收益率

数据集和指标介绍

alt text
US市场涵盖美国三大交易所(AMEX,NYSE,NASDAQ)

训练时间:2000.3.27-2015.10.09 测试时间:2015.10.10-2020.10.10

总计 8993 支股票

CN市场涵盖中国两大主要交易所(深圳,上海证券交易所)

训练时间:2006.1.10-2018.2.28 测试时间:2018.3.1-2023.3.1

总计 5148 支股票

数据集主要使用qlib库来获取,使用该内置库中的方法alpha360处理特征

每支股票每个时间点包括6个主要特征,每个主要特征还包含过去60天的数据,所以总共6*60列基本特征

Opening Price (开盘价)Closing Price (收盘价)Highest Price (最高价)Lowest Price (最低价)Volume-Weighted Average Price (VWAP) (成交量加权平均价)Trading Volume (交易量)

实验结果

指标缩写 完整名称 计算公式 含义
RMSE Root Mean Square Error √(mean((预测-真实)^2)) 预测误差的绝对大小
MAE Mean Absolute Error mean(|预测-真实|) 平均绝对预测误差
IC Information Coefficient pearsonr(预测分数, 真实收益) 预测分数与收益的相关性
ICIR IC Information Ratio IC均值 ÷ IC标准差 IC的稳定性和可靠性
RankIC Rank Information Coefficient spearmanr(预测分数, 真实收益) 预测排序与收益排序的相关性
RankICIR Rank ICIR RankIC均值 ÷ RankIC标准差 RankIC的稳定性和可靠性
AR Annual Return 日均净策略收益 × 年交易日数 年化收益率(长短策略)
AV Annual Volatility 日策略收益标准差 × √年交易日数 年化波动率(长短策略)
SR Sharpe Ratio 年化收益率 ÷ 年化波动率 夏普比率(长短策略)
MDD Maximum Drawdown min((净值-历史最高)/历史最高) 最大回撤(长短策略)
CR Calmar Ratio 年化收益率 ÷|最大回撤| 卡玛比率(长短策略)

alt text

UMI模型与多个基线模型在US和CN市场上的预测性能和投资策略性能表现结果,可以看到UMI模型提升显著

后面的三个模型可以看成是消融实验

NR:没有RankIC loss

NS:没有股票因子

NM:没有市场因子

通过消融实验可以看到每个模块对模型的性能提升都是有作用的

posted @ 2025-12-16 16:21  Sun-Wind  阅读(2)  评论(0)    收藏  举报