Moirai 2.0:时间序列预测,少即是多
Moirai 2.0:时间序列预测,少即是多
摘要
我们推出了 Moirai 2.0,这是一个仅解码器的时间序列基础模型,在包含 3600 万个序列的新语料库上进行训练。该模型采用分位数预测和多令牌预测,提高了概率准确性和推理效率。在 Gift-Eval 基准测试中,它位列顶级预训练模型之列,并在准确性、速度和模型大小之间取得了良好的平衡。
与 Moirai 1.0 相比,Moirai 2.0 用更简单的仅解码器架构、单个补丁和分位数损失取代了掩码编码器训练、多补丁输入和混合分布输出。消融研究分离了这些变化——表明仅解码器骨干网络以及递归多分位数解码对性能提升贡献最大。额外的实验表明,Moirai 2.0 优于同一系列中更大的模型,并表现出稳健的领域级结果。在效率和模型大小方面,Moirai 2.0 比其之前的最佳版本 Moirai 1.0-Large 快两倍,小三十倍,同时性能也更好。模型性能随着参数数量的增加而趋于平稳,并在更长的预测范围内下降,这促使未来在数据扩展和长预测范围建模方面开展工作。我们发布了代码和评估详情,以支持进一步研究。
1 引言
时间序列预测是云基础设施、可观测性、金融、能源、零售和医疗保健等领域容量规划、异常响应和风险管理的基础。与文本或图像不同,时间序列表现出非平稳性、多尺度时间结构、不规则采样和不完整观测等特点,这使得跨领域泛化既重要又具有挑战性。为了解决这些问题,一些早期针对时间序列基础模型(FMs)的尝试已被提出,并在跨领域重用、零/少样本适应和大规模统一部署方面显示出一些有希望的结果。
此外,时间序列基础模型已从几年前的早期探索性尝试迅速发展成为一个核心研究方向,并在行业中得到显著增长的应用。如今,该领域包括来自学术界和工业界的数十个预训练时间序列基础模型。工业界的代表性例子包括谷歌的TimesFM、亚马逊的Chronos/Chronos-Bolt 和 Chronos 2、Datadog的TOTO 以及阿里巴巴的盈龙。来自工业界的社区基准,如Gift-Eval基准 和 fev-bench,也通过标准化数据集、指标和报告不同模型的性能来加速进展。这一进展的一个明显标志是,Gift-Eval基准 自发布以来已收到25个基础模型提交,显示了社区日益增长的兴趣。
我们之前的工作 Moirai 1.0 是最早尝试将 Transformer 架构应用于时间序列的尝试之一。它证明了大规模时间序列预训练可以在不同领域实现强大的泛化能力,同时也为后续的基础模型提供了蓝图。尽管 Moirai 1.0 效果显著,但也暴露出一些局限性。其掩码编码器设计导致训练期间数据利用效率低下,多块设置限制了跨不同时间频率的学习。此外,虽然输出混合分布是增强概率预测的直观方式,但它在实践中被证明效果不佳,并增加了模型设计和优化过程的复杂性。
在这项工作中,我们介绍了 Moirai 2.0,这是一个继承模型,它包含了多项架构和训练改进。主要改进包括采用基于分位数的预测和改进的损失函数、仅解码器自回归架构、以及具有单一补丁大小的多令牌预测策略,以及在预训练和推理过程中应用的额外优化技术。我们还策划了一个新的预训练数据集来训练这个模型,其中包括 \(36M\) 个时间序列和 \(\sim 295B\) 个观测值。这些变化显著提高了我们模型的准确性和效率,使其成为发布时性能最佳的模型。截至今天,它仍然具有高度竞争力,在 Gift-Eval 排行榜上的37个基础模型(包括所有尺寸变体)中排名第5,同时在推理速度、模型大小和准确性之间提供了最有利的权衡之一。
本文的其余部分组织如下。第 2 节 提供了背景并讨论了时间序列基础模型的相关工作。第 3 节 介绍了 Moirai 2.0 的架构设计和训练策略。第 4 节 列出了我们用于预训练新模型的数据集。第 5 节 介绍了在 Gift-Eval 基准上的评估,包括效率比较、扩展实验和消融研究。第 6 节 概述了我们当前方法的局限性并强调了未来的研究方向。最后,第 7 节 总结了我们的发现并结束了本文。
2 背景与相关工作
时间序列点预测任务定义为:给定一个包含 c 个值的历史序列,即历史上下文为 \(Y\_{1:c}=\{y\_{1},y\_{2},...,y\_{c}\}\),预测未来的 H 个值,即目标序列为 \(Y\_{c+1:c+H}=\{y\_{c+1},y\_{c+2},...,y\_{c+H}\}\)。预测任务可以自然地扩展到多变量设置,即同时预测多个变量 \(Y^{1}\_{c+1:c+H},Y^{2}\_{c+1:c+H},...Y^{N}\_{c+1:c+H}\)。然而,Moirai 2.0 不支持跨变量预测。相反,我们将多变量预测视为一系列独立的单变量任务。Moirai 2.0 不仅预测点,还预测分位数,其定义上的区别在于预测层面。对于分位数预测,给定相同的历史上下文 \(Y\_{1:c}\),目标预测现在是每个未来时间步的分位数水平 \(Q\_{c+1:c+H}=\{Q\_{c+1},Q\_{c+2},...,Q\_{c+H}\}\),其中 \(Q\_{i}=\{q\_{l\_{1}}^{i},q\_{l\_{2}}^{i},...,q\_{l\_{q}}^{i},\}\),\(l\_{1}\) 到 \(l\_{q}\) 是分位数水平。我们将分位数水平设置为 \(\{0.1,0.2,...,0.9\}\)。分位数预测提供了一种建模不确定性的原则性方法,因为它们直接针对概率预测精度进行优化。
时间序列预测模型家族可分为三类:统计模型、深度学习模型和基础模型。统计模型局部工作,仅依靠历史数据统计来预测未来值。其中一些最广泛使用的模型是 ETS、Theta 和 ARIMA。
相比之下,深度学习模型通常是针对特定数据集的,因为每个数据集通常需要训练一个专门的模型。例如,N-BEATS、DLinear 和 DeepAR 都基于预 Transformer 架构。与此相反,基于 Transformer 的方法,如 Autoformer、Crossformer 和 PatchTST 也被提出。
在过去几年中,基础模型在语言和视觉领域的成功也吸引了时间序列研究人员。最初只是少数早期尝试,现在已发展成为一个迅速扩张的领域,在过去两年中,已有超过 25 个时间序列基础模型被公布。
时间序列基础模型的架构和训练策略差异很大。值得注意的是,两种突出的方法不直接依赖于 Transformer 架构:TabPFN-TS,它采用先验数据拟合网络(PFN),以及 TiRex,它建立在 xLSTM 之上。然而,大多数其他模型都依赖于 Transformer 变体。在 Transformer 家族中,一些模型采用仅编码器设计,例如 Chronos-2、Yinglong 和我们 Moirai 的第一个版本。在这种设置中,预测头位于编码器骨干之上。这种方法可以减轻误差累积并加速推理,尤其是在避免自回归时。相比之下,另一组遵循受大型语言模型(LLM)启发的仅解码器范式。示例包括 Moirai-MoE、TimesFM 模型家族 和 Sundial。其他模型采用混合编码器-解码器架构,例如 Kairos、Chronos、Chronos-Bolt 和 FlowState。另一个区别轴是输出表示和损失函数的选择。一些模型直接预测点预测。其他模型,如 Moirai,预测完整分布,或者采用基于流的损失来学习连续分布,从中可以采样预测,如 graf2025flowstate、liu2025sundial 所应用,或者直接输出分位数。
Moirai 2.0 采用仅解码器架构,并结合了新引入的训练和推理策略,以限制误差累积和推理减速。与基于点或分布的方法不同,它输出分位数预测,通过分位数(pinball)损失优化,直接与 CRPS 指标对齐。
3 模型架构与训练

图1:Moirai 2.0架构概述。面板1展示了从分块输入时间序列经过Transformer主干网络到预测分位数的端到端流程。面板2强调了分位数损失,它将每个真实值与所有预测分位数进行比较,无需分位数标签,从而强制执行正确的排序和间距。面板3描绘了用于提高鲁棒性的块级随机掩码。面板4展示了自回归多步分位数解码策略的简化视图,其中分位数预测被递归地推出以构建跨预测范围的预测分布。
在本节中,我们首先在第3.1节中描述Moirai 2.0的模型架构,并在第3.2节中介绍训练和推理的详细信息。最后,在第3.3节中,我们讨论并总结了Moirai 2.0和Moirai 1.0之间的差异。
3.1 模型架构
为了高效训练,Moirai 2.0 被构建为一个基于 Transformer 架构的纯解码器模型。我们在图1中提供了我们架构的概述。
输入投影
输入层负责将原始时间序列预处理成Transformer架构的输入token。目前,Moirai 2.0专为单变量时间序列输入而设计。多变量数据通过将每个变量视为独立的单变量序列来处理,这种方法通常表现良好。实例归一化 被单独应用于每个时间序列,以确保模型对多样化和非平稳的输入尺度具有鲁棒性。遵循既定实践,输入时间序列首先被分割成连续的、不重叠的 \(T\) 个补丁。缺失值通过将相应的二进制指示符 \(\mathbf{m}\_{i}\)(表示存在或缺失)与补丁中每个时间步的值连接起来进行明确处理。每个由此产生的补丁,通过缺失值信息增强为 \(\hat{\mathbf{x}}\_{i}=\mathbf{x}\_{i}||\mathbf{m}\_{i}\),然后通过残差块 处理成一个输入token。形式上,给定输入补丁大小为 \(p\_{in}\) 和token嵌入维度 \(d\),这种带有残差块的输入投影定义了一个映射 \(\mathbb{R}^{2p\_{in}}\rightarrow\mathbb{R}^{d}\),如下所示:
其中 \(\mathbf{W}\) 和 \(\mathbf{b}\) 是输入投影的权重和偏置。
此外,我们还在输入投影之前应用归一化。值得注意的是,正如 中提到的,在仅解码器模型中全局应用实例归一化存在未来信息泄露的风险。我们旨在通过仅从时间序列的前30%计算归一化统计量来避免这种情况,将随后的70%段保留用于因果预训练任务。
堆叠Transformer
在输入投影之后,令牌序列由多个堆叠的Transformer层处理,参见图1中的面板1。此堆栈中的每个层都遵循标准的Transformer架构,主要包括两个子层:一个因果多头自注意力机制,后跟一个前馈网络。自注意力的因果性质确保了给定令牌的预测仅依赖于有效的先行令牌和当前令牌本身,从而保持了仅解码器框架所需的自回归特性。在两个子层周围都采用了残差连接,然后是层归一化,以促进深度网络的稳定训练和有效的梯度流。最终Transformer层的输出序列表示输入补丁的学习上下文嵌入。
输出投影
最后阶段涉及将经过堆叠Transformer层处理的令牌嵌入序列投影到目标预测空间。一个输出残差块 执行此转换,将每个 \(d\) 维令牌嵌入转换为预测。此投影中包含了两个关键特性:首先,为了便于概率预测,输出维度被缩放以适应每个时间步的 \(n\_{q}\) 分位数估计。其次,模型采用多令牌预测,从每个输出令牌表示生成 \(n\_{token}\) 个未来补丁的预测,以提高长期预测的有效性和效率。因此,对于输出补丁大小 \(p\),输出投影层有效地实现了映射 \(\mathbb{R}^{d}\rightarrow\mathbb{R}^{n\_{token}\times n\_{q}\times p}\),将学习到的表示转换为多个未来补丁的结构化分位数预测。
我们选择多令牌预测而不是单令牌预测来提高效率,特别是对于预测长度相对较长的长期预测。此外,多令牌预测还有助于减少长期预测中的误差累积。
损失函数
为了支持概率预测能力,Moirai 2.0 通过优化分位数损失(也称为弹球损失)进行训练。该目标函数使模型能够学习未来时间序列值的条件分布。具体来说,模型被配置为预测 \(n\_{q}=9\) 个不同的分位数水平,这些水平从 \(0.1\) 到 \(0.9\) 等距分布(\(Q=\{0.1,0.2,\dots,0.9\}\))。对于时间步 \(t\) 的单个预测,给定分位数水平 \(q\in Q\),分位数损失定义为:
其中 \(y_{t}\) 是时间 \(t\) 的真实值,\(\hat{y}_{t}^{q}\) 是模型在该时间步预测的第 \(q\) 个分位数的值。在训练期间,总损失通过对所有预测分位数水平(\(q\in Q\))和 \(K\) 个预测块中的所有 \(H\) 个时间步的分位数损失进行平均来计算,同时忽略任何被掩盖或缺失的目标值的贡献。我们将总损失形式化如下:
请注意,默认情况下,我们平等对待所有分位数水平,这在实践中通常更可取,并鼓励准确和良好校准的分位数预测。然而,当分布的特定区域更受关注时,我们可以对选定的分位数分配不同的权重(例如 \(w\_{q}\))以强调它们。我们将在 第 3.3 节 的最后一段中对此进行更多讨论。
3.2 训练与推理
训练
为了增强模型的鲁棒性,我们采用了补丁级别的随机掩码:每个训练样本中 \(50\%\) 的输入补丁在被模型处理之前被随机掩码。这鼓励了鲁棒的表示学习,并改进了对缺失数据段的处理。由于归一化统计数据是使用每个样本的初始 \(30\%\) 段计算的,因此该段与用于训练的剩余 \(70\%\) 之间可能会出现分布偏移,这可能在训练过程中导致显著的不稳定性。为了缓解这种情况,我们采用基于 z 分数的异常检测,如果后 \(70\%\) 段与用于归一化的初始段表现出显著的统计偏差,则过滤掉这些样本。遵循与 Moirai 1.0 类似的训练程序,Moirai 2.0 训练 \(100,000\) 步,批处理大小为 \(256\)。我们使用 AdamW 优化器,学习率为 \(1\times 10^{-3}\),权重衰减为 \(1\times 10^{-1}\),\(\beta\_{1}=0.9\),\(\beta\_{2}=0.98\)。学习率调度包括前 10,000 步的线性预热,然后是余弦退火。训练使用 bf16 混合精度算术进行,以提高效率。
推理
在标准的自回归解码中,模型通过将其输出作为输入反馈来逐步生成预测。当模型每步预测一个单一值时,这种方法自然可行,因为输入和输出维度匹配。
然而,对于分位数预测,模型在每一步输出多个值(分位数)。将所有分位数直接反馈回模型会造成维度不匹配,而将它们合并为一个单一值(例如,中位数或均值)则会丢弃关于不确定性的重要信息。
为了解决这个问题,我们建议使用自回归多分位数解码。从概念上讲,此过程类似于深度为2的束搜索。给定前一步 \(t-1\) 的多分位数预测,我们不是通过中位数提交单一分位数路径,而是在当前步 \(t\) 暂时扩展搜索树,然后将其折叠回一组固定的分位数。在每个解码步 \(t\),我们首先将来自步 \(t-1\) 的预测与几个分位数扩展为更多数量的候选分位数(例如,\(9\times 9=81\))。然后,我们通过从扩展集中采样,将这些样本折叠回所需的分位数集(例如,9个级别),并将折叠后的分位数用作步 \(t\) 的预测。此过程在保持预测不确定性的同时,使推理变得可行。
算法 1 带有初始化的自回归多分位数解码(深度为2的扩展 \(\rightarrow\) 折叠)
1:上下文 \(Y\_{1:c}\);目标分位数集 \(\mathcal{Q}\),其中 \(m{=}|\mathcal{Q}|\);预测范围 \(H\)
2:初始化(首次预测,无扩展)。
3:直接从上下文预测第一步分位数:\(\{\hat{y}\_{c+1}^{(q)}\}\_{q\in\mathcal{Q}}\leftarrow{Moirai2}(Y\_{1:c})\)。
4:将 \(\{\hat{y}\_{c+1}^{(q)}:q\in\mathcal{Q}\}\) 附加到上下文中。
5:自回归步骤(束搜索深度为2)。
6:对于 \(t=c+1\) 到 \(c+H-1\) 执行
7: 扩展:通过将每个 \(\hat{y}_{t}^{(q_{1})}\) 附加到当前上下文中,形成 \(m\) 个历史。
8: 从每个扩展的历史中,向前解码一步以获得 \(\{\hat{y}\_{t+1}^{(q\_{1},q\_{2})}\}\_{q\_{2}\in\mathcal{Q}}\);汇集所有候选
9: 折叠:对于每个 \(q\in\mathcal{Q}\),设置
10: 将 \(\{\hat{y}\_{t+1}^{(q)}:q\in\mathcal{Q}\}\) 附加到上下文中。
11:结束循环
12:注意(补丁级解码)。 为清晰起见,伪代码显示了单值预测;实际上,模型在每次迭代中输出多个补丁标记。
实际上,这种方法使我们能够保持分位数预测的优势,同时避免维度不匹配。它可以被视为采样多个可能的未来(扩展),然后将它们总结为一组连贯的分位数(折叠)。
3.3 Moirai 2.0 与 Moirai 1.0 的讨论与比较
在本节中,我们将对 Moirai 1.0 到 Moirai 2.0 的架构变化进行一些讨论和比较。从架构角度来看,我们主要有 3 个变化:1) Moirai 2.0 使用仅解码器(decoder-only),而不是 Moirai 1.0 中的掩码编码器(masked encoder),2) Moirai 2.0 从 Moirai 1.0 的多路径尺寸(multi-patch size)变为单路径尺寸(single-path size),3) Moirai 2.0 将训练损失表述为分位数损失(quantile loss),而不是 Moirai 1.0 的分布损失(distribution loss)。
Moirai 2.0 中的仅解码器架构与 Moirai 1.0 中的掩码编码器架构
Moirai 1.0 采用掩码编码器架构,在训练期间随机采样上下文和预测长度,以支持灵活的下游使用。然而,这种设计对于每个采样的输入配置只产生一个损失,导致数据利用率次优和训练效率降低。相比之下,Moirai 2.0 用仅解码器架构取代了掩码编码器,从而更有效地利用训练数据并简化了整体建模流程。
在训练期间的数据效率方面,Moirai 2.0 基于因果仅解码器 Transformer,直接计算时间序列中所有 \(T\) 个 token 的 \(T{-}1\) 个损失。相比之下,Moirai-1.0 中使用的掩码编码器架构(假设掩码率为 15%)仅让 15% 的 token 参与损失计算,为每对特定的上下文和预测长度生成一个损失值。这种训练策略的差异使得 Moirai 2.0 在训练期间的数据效率大大提高。
使用仅解码器自回归架构的另一个优点是 KV 缓存 带来的潜在推理加速。KV 缓存存储在第一次前向传递期间从输入 token 计算的中间键值注意力表示;在后续解码步骤中,模型可以重用这些缓存的表示,而不是重新计算它们,从而降低推理成本。因此,当模型被要求重复提供预测(例如,n 次)时,Moirai 2.0 等自回归模型可以一次性预填充上下文并重用缓存的 KV 状态,避免冗余计算。相比之下,Moirai 1.0 等掩码编码器模型必须从头开始重新计算键值特征 n 次,这使得它们在重复查询时效率较低。这种情况在实际预测中并不少见,最终用户通常不提前知道确切的预测范围——他们可能从预测几个步骤开始,然后根据需要逐渐扩展预测。为了量化潜在的好处,我们通过实现 Moirai 2.0 的 KV 缓存版本进行了一项案例研究。结果表明,推理加速与上下文和预测长度都呈线性关系:对于大约 10K 的上下文和 1K 的预测长度,KV 缓存提供了高达 \(4\times\) 的加速,而将预测长度扩展到 10K 则将增益提高到 \(17\times\)。
多补丁尺寸 vs 单补丁尺寸
在 Moirai 2.0 中,我们统一使用单一补丁尺寸,这与 Moirai 1.0 的多补丁设计形成对比。经验表明,这种简化既提高了计算效率和预测准确性,又简化了训练和推理阶段的实现。
分位数预测与分布预测
在 Moirai 1.0 中,模型输出混合分布的分布参数,并通过从该混合分布中采样来生成预测。在推理过程中,通常每步抽取 100 个样本,在训练过程中使用分布负对数似然 (NLL) 损失。相比之下,Moirai 2.0 使用分位数损失进行训练,它生成 \(|Q|\) 个分位数作为预测。分位数损失可以直接优化操作分位数(例如,使用 \(q=0.9\) 进行容量规划),并且它自然地处理不对称惩罚(过预测与欠预测)。与分布 NLL 损失相比,分位数损失对极端尾部更具鲁棒性,而分布 NLL 损失在异常值下可能会出现方差崩溃、爆炸或不稳定的梯度。
4 预训练数据集
我们的预训练语料库由五个互补来源构建而成:(1) 无泄露的 Gift-Eval 预训练数据集,(2) Gift-Eval 训练测试数据集的训练集,(3) 通过 Chronos-Mixup 生成的额外序列,(4) KernelSynth 数据,以及 (5) 匿名的 Salesforce CloudOps 内部遥测数据。这五个组件合计包含 \(36M\) 个时间序列,约 \(295B\) 个观测值,提供了真实世界和合成时间序列的多元混合,涵盖了广泛的领域、频率和时间特征。下面我们将更详细地描述每个组件。
Gift-Eval 预训练和 Gift-Eval 训练测试
在 GIFT-Eval 排行榜中报告的原始 Moirai 模型是使用非泄露版本的预训练语料库 Gift-Eval Pretrain 进行训练的。我们新的预训练语料库也包含这个相同的非泄露数据集作为其基础。它有 \(3.25\)M 个时间序列,总共有 \(230\)B 个观测值。请注意,GIFT-Eval Pretrain 是 woo2024moirai 引入的 LOTSA 的一个子集。虽然原始论文报告的数据集大小为 27B 个观测值,但这种差异仅源于计数方式的不同:他们将每个多变量序列视为一个观测值,而在我们的计数中,每个变量都独立计数。Gift-Eval Pretrain 提供了一个大型且多样化的时间序列集合,经过精心策划,以避免与基准评估任务重叠。此外,我们还添加了 Gift-Eval TrainTest 数据集的训练集来训练 Moirai 2.0,其中包括 \(144\)K 个时间序列。有关这两个数据集的组成和构建方法的详细信息,请参阅 aksu2024gift。
Chronos-Mixup
时间序列混合(TSMixup)最初由 提出,其灵感来源于图像分类中使用的原始 Mixup。它从训练数据分布中随机采样 \(k\sim\mathcal{U}\{1,K\}\) 个长度为 \(l\sim\mathcal{U}\{l\_{min},l\_{max}\}\) 的时间序列,然后进行凸组合。我们遵循,生成明显更多和更长的时间序列,并按照他们的配置,我们将 \(K\) 的最大值设为 \(4\),并将 \(L\_{min}=128\),\(L\_{max}=4096\)。我们只使用 Chronos 数据集中非泄露的子集来生成混合数据,以确保我们的训练不发生泄露。我们生成了 \(30\)M 个时间序列,总计 \(63\)B 个观测值。
KernelSynth
我们还包含了ansari2024chronos提供的KernelSynth数据,该数据使用高斯过程生成合成时间序列。他们的方法构建了一个核库,其中包括用于趋势、局部变化和季节性的核。最终的核时间序列是通过从核库中采样核并将其与随机二元操作\(+\)或\(\times\)结合来构建的。该数据集包含\(1\)M个时间序列,总共有\(1.02\)B个观测值。
内部Salesforce数据
我们预训练语料库的核心组成部分来源于内部Salesforce遥测数据。该数据集包含大约215万个单变量时间序列,总计约14.8亿个观测值,粒度为每日。数据涵盖了从2024年1月开始的大约一年时间。为确保数据质量,在训练前过滤掉了包含大量缺失值的时间序列。

图2:预训练、零样本基础模型的GiftEval基准测试结果。排除了集成方法和缺乏可复现代码的模型。条形图显示了归一化MASE(左)和归一化CRPS(右),值越低越好。Moirai 2.0及其大型变体在两项指标下均位列顶尖模型。

图3:按领域划分的GiftEval排行榜结果。对于每个领域,我们展示了按MASE排名(越低越好)排序的前10个基础模型。
5 评估
在本节中,我们将展示实验结果,以证明我们的模型与其他最先进的基础模型相比所具备的能力。我们主要在 GIFT-Eval 基准测试 上进行评估,并与所有可用的、具有可重现代码且无测试数据泄露的预训练基础模型进行比较。除了整体基准性能之外,我们还从以下几个方面分析了 Moirai 2.0:推理速度和模型大小及其与顶级排行榜模型相比的准确性关系,以及将 Moirai 2.0 扩展到更大参数数量的影响。我们还报告了跨模型的领域特定结果,并以消融研究作为结束,以量化各个组件的贡献。

图 4:GiftEval 排行榜结果按预测长度细分。对于每个领域,我们显示了按 MASE 排名(越低越好)排序的前 10 个基础模型。
5.1 GIFT-Eval 基准测试结果
我们使用全面的 GIFT-Eval 基准测试评估 Moirai 2.0,并将其与排行榜上最先进的基础模型进行比较。GIFT-Eval 涵盖 55 个数据集上的 97 种任务配置,涉及不同的领域、频率和预测长度。在本研究中,我们排除了代理解决方案、微调模型以及没有公开可用复现代码的基础模型。经过筛选,剩下 30 个基础模型用于比较,包括 Chronos-2、TimesFM-2.5、TimesFM-2.0、TimesFM、TiRex、FlowState 和 Granite-FlowState-R1、Kairos (10/23/50M)、Toto、Sundial、TabPFN-TS、YingLong (6/50/110/300M)、Chronos (small/base/large) 和 Chronos-Bolt (small/base)、Moirai (small/base/large)、TTM-R1-Pretrained 和 Lag-Llama。
按照排行榜协议,我们报告归一化的 MASE 和 CRPS,其中每个模型的得分除以季节性朴素基线,并使用几何平均值在所有任务中进行聚合。如图 2所示,Moirai 2.0 在 MASE 和 CRPS 上分别排名第 5 和第 6,尽管参数更少,但其性能显著优于其前身 Moirai-Large。
细粒度结果
除了整体基准分数,我们还分析了 Moirai 2.0 在 GIFT-Eval 中跨领域的性能。如图 3所示,Moirai 2.0 在大多数领域中始终位列前 10 名,自然任务领域是明显的例外。这一差距可能表明预训练语料库未能充分代表自然和环境时间序列,这促使未来的工作需要平衡领域覆盖。与其前身 Moirai-Large 相比,Moirai 2.0 在几乎所有领域都取得了更强的结果,只有 Transport 是 Moirai-Large 仍然具有高度竞争力的唯一领域。当按预测范围对任务进行分组时,出现了另一个视角,如图 4所示:Moirai 2.0 在短期、中期和长期预测长度上分别排名第 4、第 6 和第 8。这一趋势表明,虽然该模型在短期预测方面具有高度竞争力,但随着预测范围的增长,其相对优势会减弱。

图 5:基础模型之间的速度-参数数量比较。每个点显示推理时间(x 轴)与模型大小(y 轴),并标注了性能排名。左图按 MASE 标注模型排名,右图按 CRPS 标注(越低越好)。Moirai 2.0 变体在提供有利的大小和推理效率的同时,实现了具有竞争力的准确性。
5.2 效率比较
为了评估推理效率,我们对 GIFT-Eval 中的 12 个代表性任务进行了实验,这些任务涵盖了不同的数据集-频率组合和预测范围。具体来说,我们包括了短期任务,如 M4--yearly、M4--hourly、Hospital--monthly、US Births--weekly、Electricity--daily、Saugeenday--daily、Bizitobs_l2c--hourly、SZ_Taxi--15 minutely 和 Solar--hourly,以及中/长期任务,包括 SZ_Taxi--15 minutely、Solar--hourly 和 Bizitobs_l2c--hourly。选择这些任务仅仅是为了最大化频率和预测长度的多样性;我们不强调在此子集上的准确性,因为我们继续使用全部 97 个任务进行性能报告。为了评估效率,我们计时了每个模型在所有选定任务上生成预测的总推理时间,这些任务运行在单个 H200 GPU 上,并使用 GIFT-Eval 存储库中提供的官方复制代码。222所有排行榜模型的复制代码可在以下网址获取:https://github.com/SalesforceAIResearch/gift-eval/tree/main/notebooks。
图 5 总结了模型大小、推理时间和预测性能之间的权衡。在基线模型中,Kairos-50M 速度最快,尽管其基准准确性落后于 Moirai 2.0,并且参数数量几乎是 Moirai 2.0 的五倍。另一方面,Granite-FlowState-R1 在尺寸更小的情况下,实现了比 Moirai 2.0 更强的准确性,但其推理速度大约慢了三倍。最值得注意的是,Moirai 2.0 相较于其前身在效率上实现了显著飞跃:它比 Moirai-Large 小约 30 倍,快 2 倍,同时实现了显著更高的准确性。
5.3 扩展实验
我们通过训练Moirai 2.0的两个更大变体,即基础版和大型版,进一步研究了扩展模型大小对性能的影响,这两个变体与小型版相比,参数数量分别增加了约8倍和30倍。如表1所示,我们没有观察到扩展带来的益处:这两个更大的变体在GIFT-Eval上,无论是MASE还是CRPS,都表现不如小型模型。事实上,小型变体似乎已经足以充分利用可用的预训练数据,简单地增加参数数量并不能转化为更好的结果。这一发现表明,改进可能需要进一步扩展预训练数据、架构创新或有针对性的正则化策略,而不仅仅是模型大小。
表1:不同Moirai 2.0尺寸的性能。
| 模型 | 参数 (M) | MASE | CRPS |
| Moirai 2.0 小型版 | 11.4 | 0.728 | 0.516 |
| Moirai 2.0 基础版 | 87.1 | 0.732 | 0.525 |
| Moirai 2.0 大型版 | 305 | 0.743 | 0.530 |
这一趋势与GIFT-Eval基准论文中报告的更广泛观察结果一致,即跨模型家族的扩展并不能系统地提高预测性能。与此同时,其他近期研究表明,扩展参数数量可以带来益处 [feng2025kairos, wang2025output]。我们推测,模型大小和预训练数据可用性之间的相互作用是这里的关键因素,如果没有数据规模和多样性的同步增加,仅凭参数增长并不能保证收益。
5.4 消融研究
我们进行了消融研究,以追溯Moirai 1.0到Moirai 2.0的演变,结果总结在表2中。从最初的Moirai 1.0 small开始,它使用编码器-only架构和分布损失。
为了解耦新预训练数据的影响,我们首先训练了一个v0的解码器-only架构,使用GIFT-Eval Pretrain,它应用了新的解码器-only架构和原始的分布损失。这导致MASE有所改善,而CRPS变化不大。接下来在v1中,我们使用新整理的语料库训练相同的架构,并观察到两个指标都有显著改善。v2版本用分位数损失取代了分布损失,在消融研究中取得了最大的单次改进。在此基础上,v3通过递归解码增强了解码器-only设计,进一步降低了误差。在v4中,我们还在预训练期间应用了随机掩码。虽然单独的这种修改会略微降低性能,但我们将其与多令牌预测结合使用,在v5中其优势变得更加明显。多令牌预测与递归解码和随机掩码一起使用,在保持相似MASE的同时,获得了最佳的CRPS。Moirai 2.0的最终版本通过用残差块替换线性头来增强投影层,同时保留分位数损失、解码器-only架构以及所有三种预训练/推理策略。这个最终变体实现了最佳的整体性能,完成了设计决策的增量路径。
表2:Moirai 2.0设计选择的消融研究。从Moirai 1.0开始,接着是使用原始GIFT-Eval预训练和分布损失的解码器-only变体(v0)、新预训练语料库(v1)、分位数损失(v2)、自回归分位数解码(v3)、随机掩码(v4)和多令牌预测(v5)。最终的Moirai 2.0还用残差块替换了线性投影,取得了最佳的整体结果。
| 变体 | 预训练数据 | 损失 | 架构 | 投影 | 多令牌预测 | 自回归分位数解码 | 随机掩码 | MASE | CRPS |
|---|---|---|---|---|---|---|---|---|---|
| Moirai 1.0 small | GIFT-Eval Pretrain | distribution | enc-only | linear | — | — | — | 0.946 | 0.65 |
| v0 | GIFT-Eval Pretrain | distribution | dec-only | linear | — | — | — | 0.9288 | 0.6469 |
| v1 | New Corpus | distribution | dec-only | linear | — | — | — | 0.85 | 0.58 |
| v2 | New Corpus | quantile | dec-only | linear | — | — | — | 0.744 | 0.553 |
| v3 | New Corpus | quantile | dec-only | linear | — | ✓ | — | 0.736 | 0.533 |
| v4 | New Corpus | quantile | dec-only | linear | — | ✓ | ✓ | 0.772 | 0.56 |
| v5 | New Corpus | quantile | dec-only | linear | ✓ | ✓ | ✓ | 0.739 | 0.527 |
| Moirai 2.0 | New Corpus | quantile | dec-only | residual block | ✓ | ✓ | ✓ | 0.728 | 0.516 |
6 局限性与未来工作
由于多变量预测和在 Moirai 2.0 中使用协变量的益处微乎其微,我们已放弃了对它们的支持。这一观察结果可能源于缺乏具有此类属性的高质量数据集,未来版本中一旦解决了这一限制,可能会重新考虑——可能通过合成数据生成,如 所示。
尽管 Moirai 2.0 受益于其架构更改——以更少的参数实现了更好的性能——但也为扩展带来了新的挑战。反直觉的是,增加参数数量会降低性能,这表明模型架构与可用数据之间存在不匹配。此外,随着预测范围的延长,模型的性能会变弱。在未来的工作中,我们希望探索弥合架构与数据之间的这一差距,从而实现可扩展的模型增长并可能带来进一步的性能改进。
对于未来的工作,我们认为有几个令人兴奋的方向值得探索。首先,将时间序列分析能力与大型语言模型 (LLM) 的推理能力相结合的代理解决方案代表了一个非常有前途的途径。最近提交给 GIFT-Eval 基准测试的基于代理的提交进一步证明了这种范式的潜力。我们预计,随着需要更深入推理和上下文理解的新基准的出现,此类方法将变得越来越实用和相关。
另一个重要方向在于开发能够进行多模态推理的基础模型,整合文本、图像和时间序列模态。尽管一些早期工作已经开始探索这一领域,但仍有许多有待发现。我们相信,当通过额外的上下文信息丰富时,预测和时间序列分析对于企业和日常用户都将变得更有价值,这使得多模态集成成为未来研究的一个令人兴奋的途径。
7 结论
在本技术报告中,我们介绍了我们的新模型 Moirai 2.0,这是一个仅解码器的时间序列基础模型,它将分位数预测与多令牌预测相结合,并在包含 3600 万个时间序列的新策划的多样化预训练数据上进行训练。在全面的 Gift-Eval 基准测试中,Moirai 2.0 极具竞争力——在预训练模型中取得了前 5 名的性能,同时在准确性、推理速度和参数数量之间提供了有利的权衡。我们的消融实验分离了每个设计选择的影响,表明从仅编码器架构切换到仅解码器架构,以及递归多分位数解码,解释了大部分观察到的增益。
除了这些进展之外,我们还讨论了 Moirai 2.0 的局限性。我们观察到参数扩展的回报递减,并且随着预测范围的延长,性能下降。解决这些挑战可能需要:与模型容量对齐的数据扩展;以及旨在提高长期性能的架构改进。通过发布代码、记录和评估设计选择以及报告局限性,我们希望支持并加速这一方向的进展。
附录 A 附录

图 6:GiftEval 排行榜结果按变量类型细分。对于单变量和多变量,我们都显示了按 MASE 排名(越低越好)排序的前 10 个基础模型。

图 7:GiftEval 排行榜结果按频率细分。对于每种频率类型,我们都显示了按 MASE 排名(越低越好)排序的前 10 个基础模型。

图 8:GiftEval 排行榜结果按时间序列的趋势性细分。高值表示强趋势,反之亦然。我们显示了按 MASE 排名(越低越好)排序的前 10 个基础模型。

图 9:GiftEval 排行榜结果按时间序列的季节强度细分。高值表示强季节性模式,反之亦然。我们显示了按 MASE 排名(越低越好)排序的前 10 个基础模型。

图 10:GiftEval 排行榜结果按时间序列的熵细分。熵衡量时间序列的“可预测性”,其中低值表示高信噪比,高值表示序列难以预测。我们显示了按 MASE 排名(越低越好)排序的前 10 个基础模型。

图 11:GiftEval 排行榜结果按时间序列的赫斯特值细分。赫斯特指数表示时间序列的长期记忆或持久性,以及未来值是否可能受过去趋势影响、回归均值或随机行为。值越高表示持久性越强。我们显示了按 MASE 排名(越低越好)排序的前 10 个基础模型。

图 12:GiftEval 排行榜结果按时间序列的稳定性细分。稳定性是均值的方差。值越低表示数据越稳定。我们显示了按 MASE 排名(越低越好)排序的前 10 个基础模型。

图 13:GiftEval 排行榜结果按时间序列的块状性细分。块状性是时间序列不同段之间方差的变异性。高块状性值表示变异性显著波动。我们显示了按 MASE 排名(越低越好)排序的前 10 个基础模型。

浙公网安备 33010602011771号