时间序列 - 自回归


对于平稳时间序列,自动回归模型将时间“t”处的变量值视为其之前的值“p”个时间步长的线性函数。从数学上来说,它可以写成 -

$$y_{t} = \:C+\:\phi_{1}y_{t-1}\:+\:\phi_{2}Y_{t-2}+...+\phi_{p}y_ {tp}+\epsilon_{t}$$

 

其中,“p”是自回归趋势参数

$\epsilon_{t}$ 是白噪声,并且

$y_{t-1}, y_{t-2}\:\: ...y_{tp}$ 表示变量在之前时间段的值。

p的值可以使用各种方法来校准。找到“p”的适当值的一种方法是绘制自相关图。

注意- 在对数据进行任何分析之前,我们应该以可用总数据的 8:2 比例将数据分为训练和测试,因为测试数据只是为了找出我们模型的准确性,并且假设它不可用于我们直到做出预测之后。对于时间序列,数据点的顺序非常重要,因此在分割数据时应记住不要丢失顺序。

自相关图或相关图显示变量在先前时间步骤与其自身的关系。它利用 Pearson 相关性并显示 95% 置信区间内的相关性。让我们看看数据的“温度”变量是什么样子的。

显示 ACP

在[141]中:

split = len(df) - int(0.2*len(df))
train, test = df['T'][0:split], df['T'][split:]

在[142]中:

from statsmodels.graphics.tsaplots import plot_acf

plot_acf(train, lags = 100)
plt.show()
代码片段 9

假设位于蓝色阴影区域之外的所有滞后值都具有相关性。