序列模型
自回归模型与序列建模学习笔记
一、自回归模型(Autoregressive Models)
核心思想:
- 定义: 自回归模型是一种利用过去观测值来预测当前值的统计模型。
- 形式化表达: \(x_t = f(x_{t-1}, x_{t-2}, \ldots, x_1) + \epsilon_t\),其中 $ f $ 是一个函数(可以是线性或非线性的),\(epsilon_t\) 是噪声项。
特点:
- 与普通回归模型不同的是,自回归不需要额外的标注数据集,而是基于序列内部的时间依赖关系进行学习和预测,即"自己回归自己"。
- 特别适用于具有明显时间依赖性的数据,如股票价格、气象数据等。
实际挑战与解决方案:
- 随着时间步的增长,输入序列长度增加导致计算量过大。解决方案是限制输入的历史长度为固定值 \(\tau\),即使用最近的 \(\tau\)步作为输入。
二、隐变量自回归模型(Latent Autoregressive Models)
核心思想:
- 维护一个隐藏状态 \(h_t\) 来捕捉序列的长期依赖关系,而不是直接使用原始历史数据进行预测。
- 模型结构如下:\(\hat{x}_t = P(x_t|h_t), h_t = g(h_{t-1}, x_{t-1})\),同时更新隐藏状态和预测输出。
特点:
- 能够有效建模复杂的时间动态,更适合处理长序列和高阶依赖。
三、马尔可夫模型(Markov Models)
基本假设:
- 当前时刻的状态仅依赖于有限的前几个时刻的状态。如果只依赖于前一个时刻,则称为一阶马尔可夫模型。
应用场景:
- 离散序列建模(如文本、语音)效果很好,并可以通过动态规划高效计算联合概率和条件概率。
四、因果性(Causality in Time Series)
时间方向的重要性:
- 数据具有天然的时间顺序:未来不能影响过去。因此,建模\(P(x_{t+1}|x_t)\) 比 \(P(x_t|x_{t+1})\) 更合理且容易。
数学表示:
- 可以从正向展开联合分布:\(P(x_1, \ldots, x_T) = \prod_{t=1}^{T} P(x_t|x_{t-1}, \ldots, x_1)\),符合现实中的因果关系。
总结:
自回归模型及其扩展形式(包括隐变量自回归模型和马尔可夫模型)为时间序列分析提供了强大的工具,特别适合那些具有内在时间结构的数据集。它们通过利用序列自身的历史值来进行预测,无需外部标号数据,从而在经济预测、天气预报、信号处理等领域展现出广泛的应用前景。

浙公网安备 33010602011771号