时间序列预测简单化-第-4-1-部分--理解时间序列中的平稳性
时间序列预测简单化(第 4.1 部分):理解时间序列中的平稳性
但这些预测模型需要数据是平稳的。因此,我们首先将讨论时间序列中的平稳性实际上是什么,为什么需要它,以及如何实现它。
也许你们中的大多数人已经通过博客、书籍等阅读了大量关于时间序列平稳性的内容,因为关于这一主题的资源很多。
起初,我认为在讨论 ARIMA 等预测模型时,应该解释时间序列平稳性的概念。
但当我第一次学习这个主题时,我的理解并没有超出恒定均值或方差、强或弱平稳性以及检查平稳性的测试。
总感觉有些缺失;我无法理解关于平稳性的几个问题。
因此,我决定就这个主题写一篇单独的文章,以解释我对平稳性问题的学习或疑问。
我只是尝试以更直观的方式撰写关于时间序列平稳性的内容,并希望你们能从这个话题中获得除方法和统计检验之外的全新视角。
我们称具有恒定均值、恒定方差和恒定自协方差或恒定自相关结构的时序为平稳时序。
让我们讨论每个属性。
我们所说的恒定均值是什么意思?
例如,考虑一个 5 年的销售数据时间序列。如果我们计算每年的平均销售额,这些值应该大致相同;如果每年的平均值差异显著,则没有恒定的均值,时间序列是不平稳的。

作者提供的图片
平稳时间序列的下一个属性是恒定方差。
如果数据在整个序列中的分布相同,那么它就被称为具有恒定方差。
换句话说,如果时间序列在整个序列中上下波动幅度相似,那么它就被称为具有恒定方差。
但如果上下波动开始时很小,然后后来变得更大,那么就没有恒定方差。

作者提供的图片
平稳时间序列的第三个属性是恒定自协方差(或自相关)。
如果值之间的关系仅取决于它们之间的差距,而不管它们何时发生,那么就存在恒定的自协方差。
例如,你写了一篇博客并追踪了 50 天的阅读量,如果每天的阅读量都与前一天的阅读量密切相关(第 6 天的阅读量类似于第 5 天,第 37 天的阅读量类似于第 36 天,因为它们相隔一天)。
如果这种关系在整个序列中保持不变,那么自协方差是恒定的。
在平稳时间序列中,自相关通常随着滞后(或距离)的增加而减少,因为只有附近的值才高度相关。
如果自相关在较大滞后期保持较高,这可能会表明趋势或季节性的存在,表明非平稳性。
当一个时间序列具有这三个属性时,我们称之为平稳时间序列,但我们称之为二阶平稳性或弱平稳性。
主要有两种平稳性类型:
-
强平稳性
-
弱平稳性
强平稳性意味着每次我们观察整个时间序列时,它都保持不变,不仅均值和方差,甚至偏度和峰度以及分布的整体形状。
在现实世界中,这种情况对于时间序列来说很少见,因此经典的预测模型假设弱平稳性,这是一个更现实和实用的条件。
识别时间序列中的平稳性
识别时间序列平稳性的方法有很多。
要理解这些方法,让我们考虑一个零售销售数据集,这是我们在此系列中之前用于 STL 分解的。
首先是视觉检查。
让我们绘制这个序列

图片由作者提供
从上面的图中,我们可以观察到时间序列中的趋势和季节性,这表明均值不是恒定的。因此,我们可以得出结论,这个序列是非平稳的。
测试平稳性的另一种方法是将时间序列分为两半并计算均值和方差。
如果值大致相同,那么该序列是平稳的。
对于这个时间序列,

图片由作者提供
均值显著更高,方差也大得多,在第一半。由于均值和方差不是恒定的,这证实了该时间序列是非平稳的。
我们还可以使用自相关(ACF)图来识别时间序列中的平稳性。
该时间序列的 ACF 图

图片由作者提供
在上面的图中,我们可以观察到这个时间序列中的每个观测值与其不同滞后期的先前值相关。
如前所述,在平稳时间序列中,自相关逐渐衰减到零。
但这里的情况并非如此,因为自相关在几个滞后期很高(即,即使它们相隔较远,观测值也高度相关),这表明存在趋势和季节性,这证实了该序列是非平稳的。
我们也有统计测试来识别时间序列中的平稳性。
一个是Augmented Dickey Fuller (ADF) 测试,另一个是Kwiatkowski-Phillips-Schmidt-Shin(“KPSS”)测试。
让我们看看当我们将这些测试应用于时间序列时,我们会得到什么。

图片由作者提供
两个测试都确认时间序列是非平稳的。
这些是我们用来识别时间序列平稳性的方法,
将非平稳时间序列转换为平稳时间序列。
我们有一种称为“差分”的技术,可以将非平稳序列转换为平稳序列。
在这种方法中,我们从每个值中减去其前一个值。这样我们可以看到它们从一个时间到下一个时间的变化量。
让我们考虑零售销售数据集的一个样本,然后进行差分。

图片由作者提供
现在我们执行差分,这我们称之为一阶差分。
这就是如何在整个时间序列上应用差分,以查看值随时间的变化。
在一阶差分之前,

图片由作者提供
在一阶差分之后

图片由作者提供
在应用一阶差分之前,我们可以观察到原始时间序列中存在一个增长趋势,以及定期出现的峰值,这表明存在季节性。
差分后,序列围绕零波动,这意味着趋势已被消除。
然而,由于季节性峰值仍然存在,下一步是应用季节差分。
在季节差分中,我们从上一个周期中相同季节的值中减去该值。
在这个时间序列中,我们有年度季节性(12 个月),这意味着:
对于 1993 年 1 月,我们计算 1993 年 1 月 - 1992 年 1 月。
这样我们就对整个序列应用季节差分。
在对一阶差分序列进行季节差分后,我们得到

图片由作者提供
我们可以观察到季节性峰值已经消失,并且对于 1992 年,我们得到空值,因为没有前一个值可以减去。
在一阶差分和季节差分之后,时间序列中的趋势和季节性被消除。
现在,我们将再次使用 ADF 和 KPSS 测试来测试平稳性。

图片由作者提供
我们可以看到时间序列是平稳的。
注意: 在最终的季节差分序列中,我们仍然观察到 2020-2022 年左右的一些峰值,这是由于大流行(一次性事件)。
这些被称为干预。它们可能不会违反平稳性;它们可以影响模型精度。可以使用如干预分析等技术在这里。
当我们探索 ARIMA 模型时,我们将讨论这个问题。
我们通过差分消除了时间序列中的趋势和季节性,使其平稳。
现在除了差分之外,我们还可以使用 STL 分解。
在本系列的早期,我们讨论了当时间序列中的趋势和季节性模式变得混乱时,我们使用 STL 提取这些模式。
因此,我们可以对时间序列应用 STL 分解,并提取在移除趋势和季节性后得到的残差成分。
当我们探索 ARIMA 预测模型时,我们还将讨论“STL + ARIMA”。
到目前为止,我们已经讨论了识别平稳性和将非平稳时间序列转换为平稳时间序列的方法。
为什么时间序列预测模型假设平稳性?
我们使用时间序列预测模型根据过去值预测未来。
这些模型需要平稳的时间序列来预测未来,因为模式在时间上保持一致。
在非平稳时间序列中,均值和方差存在恒定的变化,使得模式不稳定,预测不可靠。
趋势和季节性不是时间序列中的模式吗?
趋势和季节性也是时间序列中的模式,但它们违反了 ARIMA 等模型的要求,这些模型需要平稳的输入。
在建模之前,趋势和季节性被单独处理,我们将在未来的博客中讨论这一点。
这些时间序列预测模型是在去除全局模式后设计来捕捉短期依赖性的。
这些短期依赖性究竟是什么?
当我们有一个时间序列时,我们尝试使用分解方法将其分解,以了解其中的趋势、季节性和残差。
我们已经知道,趋势给出了数据随时间变化的整体方向(上升或下降),季节性显示了在固定间隔重复的模式。
我们还得到残差,这是在从时间序列中移除趋势和季节性之后剩余的部分。这个残差不能由趋势和季节性解释。
趋势给出整体方向,季节性显示在整个序列中重复的模式。
但在时间序列中,残差中可能存在一些模式,这些模式是暂时的,比如由于促销活动导致的销售突然增加,或者由于罢工或天气条件导致的销售突然下降。
ARIMA 等模型可以用这些数据做什么?
模型是否根据这些数据预测未来的促销活动或罢工?不。
大多数时间序列预测模型都用于许多行业的实时生产系统(实时)。
在实时预测系统中,随着新数据的到来,预测会不断更新,以反映最新的趋势和模式。
让我们以冷饮库存管理为例。
店主知道在夏季冷饮销售量高,在冬季低,但这并不能帮助他在日常库存规划中。这里短期依赖性至关重要。
例如,
-
在某些时候,节日期间和婚礼季节可能会有销售高峰。
-
如果突然出现温度激增(热浪)
-
周末的 1+1 优惠可能会增加销售。
-
周末的销售可能比工作日高。
-
当商店缺货 2-3 天,库存恢复的那一刻,可能会有销售激增。
这些模式不像季节性那样持续重复,它们也不是长期趋势的一部分。但它们确实经常发生,预测模型可以从中学到东西。
时间序列预测模型不会预测这些未来的事件,但当出现这种激增时,它们会学习数据的模式或行为。
模型随后根据它预测,就像促销活动后的销售激增一样,销售可能会逐渐恢复正常,而不是突然下降。模型捕捉这些模式并提供可靠的预测结果。
预测后,将趋势和季节性成分添加回去以获得最终的预测。
这就是为什么短期依赖关系在时间序列预测中至关重要。
数据集:本博客使用来自 FRED(联邦储备经济数据)的公开数据。提前零售销售:百货商店(RSDSELD)系列由美国人口普查局发布,可用于分析和发表,需适当引用。
官方引用:
美国人口普查局,提前零售销售:百货商店 [RSDSELD],从圣路易斯联邦储备银行 FRED 获取;fred.stlouisfed.org/series/RSDSELD,2025 年 7 月 7 日。
注意:
本博客中展示的所有可视化和测试结果都是使用 Python 代码生成的。
你可以在这里探索完整的代码:GitHub。
在这篇博客中,我使用 Python 进行统计测试,并根据结果确定时间序列是平稳的还是非平稳的。
本系列的下一个是关于用于识别平稳性的统计测试(ADF 和 KPSS 测试)的详细讨论。
希望你觉得这篇博客直观且有用。
我很乐意听听你的想法。
如果你想阅读更多我的作品,你还可以在Medium和LinkedIn上找到。
感谢阅读!

浙公网安备 33010602011771号