时间序列 - 自回归
对于平稳时间序列,自动回归模型将时间“t”处的变量值视为其之前的值“p”个时间步长的线性函数。从数学上来说,它可以写成 -
$$y_{t} = \:C+\:\phi_{1}y_{t-1}\:+\:\phi_{2}Y_{t-2}+...+\phi_{p}y_ {tp}+\epsilon_{t}$$
其中,“p”是自回归趋势参数
$\epsilon_{t}$ 是白噪声,并且
$y_{t-1}, y_{t-2}\:\: ...y_{tp}$ 表示变量在之前时间段的值。
p的值可以使用各种方法来校准。找到“p”的适当值的一种方法是绘制自相关图。
注意- 在对数据进行任何分析之前,我们应该以可用总数据的 8:2 比例将数据分为训练和测试,因为测试数据只是为了找出我们模型的准确性,并且假设它不可用于我们直到做出预测之后。对于时间序列,数据点的顺序非常重要,因此在分割数据时应记住不要丢失顺序。
自相关图或相关图显示变量在先前时间步骤与其自身的关系。它利用 Pearson 相关性并显示 95% 置信区间内的相关性。让我们看看数据的“温度”变量是什么样子的。
显示 ACP
在[141]中:
split = len(df) - int(0.2*len(df)) train, test = df['T'][0:split], df['T'][split:]
在[142]中:
from statsmodels.graphics.tsaplots import plot_acf plot_acf(train, lags = 100) plt.show()
假设位于蓝色阴影区域之外的所有滞后值都具有相关性。