理解:时间序列的平稳性

为什么要平稳?

原因一:时间序列数据的数据结构与传统的统计数据结构不同。最大的区别在于,传统随机变量可以得到多个观测值(比如骰子点数,可以反复掷得到多个观测值,忽略时间的差异)。而时间序列数据中,每个随机变量只有一个观测值(比如设收盘价为研究的随机变量,每天只有一个收盘价,不同日子的价格服从的分布不同,即考虑时间的差异)。这样一来,每个分布只能得到一个观测值,数目太少,无法研究分布的性质。但是通过平稳性,从不同日期的分布之间发现内在关联,缓解了由于样本容量少导致的估计精度低的问题。

原因二:研究时间序列的最终目的是,预测未来。但是未来是不可知的,我们拥有的数据都是历史,因此只能用历史数据来预测未来。但是,如果过去的数据与未来的数据没有某种“相似度”,那这种预测就毫无道理了。平稳性就是保证这种过去与未来的相似性,如果数据是平稳的,那么可以认为过去的数据表现出的某些性质,未来也会表现。

 

什么是严平稳?

对于一个时间序列{Xt},其中每个数据X都是随机变量,都有其的分布(如图)。

 

 

 

 

 

 

取其中连续的m个数据,X1到Xm,则可以构成一个m维的随机向量,(X1,X2,...,Xm)

由于单独的每个随机变量X都有各自的分布,那么组合成一个m维随机向量后,这个多维向量整体就有一个“联合分布”。

严平稳的本质就是,这种联合分布不随着时间的推移而变化。

也就是说,取数据时,任意连续取出的m个数据(无论是从X1取到Xm,还是从Xt取到Xt+m),他们组成的多维向量的联合分布都是相同的。

此时,再放宽一个条件,让这个m的取值也任意。

即无论这取数据的窗口设定为多宽,只要连续取相同数目个数据,他们构成的联合分布都是相同的。

比如,(X1,X2,X3)与(X6,X7,X8)有相同的3维联合分布,(X1,X2,X3,X4)与(X6,X7,X8,X9)有相同的4维联合分布。

综上,符合上述性质的时间序列,是严平稳的。

 

有了严平稳为什么还要有宽平稳?

很多情况下,我们无从得知这些随机变量的分布到底是什么样子。

我们观测得到的数据,只是服从某种未知分布的随机变量的一种取值。

既然连单个随机变量的分布都难以求出,就更不用说求由一堆随机变量组成、多维随机向量的联合分布有多困难了。

因此严平稳虽然是一种保证过去与未来的数据“相似”很棒的方式,但过于理想化,实际上很难检验一个时间序列的严平稳性。

于是只能放宽条件,因而产生了“宽平稳”的概念。

 

什么是“k阶矩”?

“矩”是随机分布的一种特征数。特征数,顾名思义,反映了一个随机分布的某种特征。比如“数学期望”反映了,符合某种分布的随机变量的取值,总是在某个值周围波动;而“方差”则反映了,这种波动的大小程度。

矩分为原点矩和中心矩,其中一阶原点矩就是数学期望,二阶中心矩就是方差。

通常2阶以内(含2阶)称为低阶矩,2阶以上称为高阶矩。

但是这两者之间有相互推导的公式,知其一就可推其二,因此一般只称“矩”。

其中,随机变量的k阶原点矩的定义为,随机变量的k次方的数学期望,即E(Xk)。平时所说的“k阶矩存在”,就表现为这个数学期望不是无穷(也就是小于无穷),这与“极限存在”的定义是同理的。

值得注意的是,如果一个随机变量的某高阶矩存在,那么低阶矩也一定存在。因为|X|k-1≤|X|k+1。

严平稳中由于联合分布相同,故各阶矩也相同。

 

什么是宽平稳?

宽平稳性是使用序列的特征统计量来定义的,它认为序列的统计性质,主要由其低阶矩决定。

当时间序列满足以下三个条件时:

第一个条件,任意时刻二阶矩都存在。

第二个条件,随机变量的期望(一阶矩)不随时间的推移而改变。说白了就是,均值μ不随时间t改变。

第三个条件,两个时点的随机变量之间的自相关系数,只与这两个时点的时间差有关,而不随时间的推移而改变。说白了就是,只要窗口宽度(即两时点的时间差)固定,则自相关系数是唯一。

就被称为是宽平稳的。

由于定义涉及到的几个条件,宽平稳也被称为协方差平稳,或二阶平稳。

 

从自相关系数与时间t无关能得到什么结论?

由于自相关系数只跟窗口宽度l(lag的首字母,表示用于计算自相关性而取的、两个数据之间的时间差)有关,与时间t无关,因此大可以设一个函数ACF(Autocorrelation Function)表示这个窗口宽度与自相关系数之间的函数关系。其自变量为滞后期数(即窗口宽度,用l表示),因变量为自相关系数(用ρ表示)。

根据协方差的定义,ρl中,分子为Cov(Xt,Xt-l),分母为sqrt{Var(Xt)Var(Xt-l)}。由于【【【【记得写完】】】】

 

平稳性的一些结论

如果一个时间序列平稳,则有:

均值是与t无关的常数。即不同时点的分布中,随机变量都是围绕同一个值波动的。表现在时序图(横轴为时间轴,纵轴衡量随机变量取值)中,即图线整体是围绕某个水平线波动的(类似于政经里价格围绕价值上下波动那个图)。

方差是与t无关的常数。这在定义里并没有显然地体现,但是由于定义给出自相关系数只与窗口宽度有关,而与窗口位置即时间t无关,所以大可以干脆取个宽度为0的窗口,于是本来相隔一个窗口宽度的两个时点数据之间的相关性,就变成了同一个时点数据自己和自己之间的相关性,自己和自己,当然相关系数为1。

协方差是常数。

 

严平稳与宽平稳之间的关系?

严平稳本质上是对时间序列的分布进行限制,而宽平稳的本质是对低阶矩进行限制。

由于宽平稳比严平稳的条件更为宽松,因此通常情况下,严平稳能推导出宽平稳,但宽平稳不能反推严平稳。但有特例。

因为宽平稳时,需要满足二阶矩存在的条件。而严平稳不需要满足二阶矩存在。

因此,不存在二阶矩的严平稳序列,无法满足宽平稳。例如严平稳的柯西分布序列,就不符合宽平稳(一二阶矩不存在,因此无法验证宽平稳)。

所以,只有二阶矩存在时,严平稳序列才满足宽平稳。

特例:当序列服从多元正态分布时,宽平稳序列一定能推导出严平稳。

原因在于,正态时间序列的二阶矩平稳,等价于分布平稳(其密度函数表明,n维正态分布仅由其均值向量和自协方差矩阵决定)。

 

正态时间序列

如果一个时间序列,从中取出任意n个(有限个)随机变量,组成的n维随机向量,都服从n维正态分布,则称之为正态时间序列。即上方的特例。

posted @ 2020-02-22 12:00  ev2020  阅读(9344)  评论(1编辑  收藏  举报