(aaai25) EWMoE: An Effective Model for Global Weather Forecasting with Mixture-of-Experts
1、研究动机与整体框架
近年来,基于深度学习的数据驱动天气预报模型展现出巨大潜力,但现有模型仍面临关键问题:
- 数据与计算需求激增:主流模型(如 FourCastNet、Pangu-Weather)需数十年训练数据和海量 GPU 资源(如 FourCastNet 用 64 块 A100 GPU 训练 16 小时)
- 特征提取不足:气象数据包含复杂物理关系和三维地理坐标信息,传统 ViT 嵌入无法有效捕捉这些特征
为此,作者构建了EWMoE(Effective Weather Mixture-of-Experts) 模型,如下图所示,主要包括两个创新:(1)提出3D 绝对位置嵌入,建模经纬度和海拔的三维地理特征;(2)在FFN里引入混合专家(MoE)层,在不增加计算开销的前提下提升模型容量。

2、模型细节
EWMoE 基于 Transformer 编码器 - 解码器框架,流程如下:
- 预处理:将输入气象数据(20 个变量、5 个垂直层)分割为 8×8 的patch,通过线性投影得到初始特征。
- 3D 绝对位置嵌入:为每个patch添加经度、纬度、海拔三维可学习位置编码,捕捉气象变量的地理依赖关系。
- MoE 层编码:6 个编码器块均采用 MoE 层替代传统 FFN,通过门控网络选择 Top-2 专家处理输入,提升模型容量。
- 解码与损失优化:解码器输出 8 天(32 个 6 小时步长)的预报结果,结合双损失函数优化训练过程。
3、实验结果
作者使用ERA5 再分析数据集(0.25° 分辨率,721×1440 网格),训练集(2015-2016 年)、验证集(2017 年)、测试集(2018 年)。对比模型为 FourCastNet、ClimaX、Pangu-Weather、GraphCast。
短时效预报(1-3 天):EWMoE 与 Pangu-Weather 精度相当,ACC 指标优于 GraphCast。中长时效预报(3-8 天):EWMoE 性能显著优于 Pangu-Weather,在 Z500、T2m 等关键变量上保持更高稳定性。
在轻量模型对比上,优于 FourCastNet 和 ClimaX,且训练数据量仅为二者的 1/18(2 年 vs 37 年)。

浙公网安备 33010602011771号