时间序列 - ARIMA 的变体

在上一章中，我们已经了解了 ARIMA 模型的工作原理，以及它无法处理季节性数据或多变量时间序列的局限性，因此引入了新模型来包含这些功能。

这里给出了这些新模型的一瞥 -

向量自回归 (VAR)

它是多元平稳时间序列自回归模型的广义版本。它的特点是“p”参数。

矢量移动平均线 (VMA)

它是多元平稳时间序列的移动平均模型的广义版本。它的特征是“q”参数。

向量自回归移动平均线 (VARMA)

它是VAR和VMA的结合，是多元平稳时间序列ARMA模型的推广版本。它的特征是“p”和“q”参数。很像，ARMA 能够通过将“q”参数设置为 0 来充当 AR 模型，通过将“p”参数设置为 0 来充当 MA 模型，VARMA 也能够通过设置“q”参数来充当 VAR 模型作为 0 并通过将“p”参数设置为 0 作为 VMA 模型。

在[209]中：

df_multi = df[['T', 'C6H6(GT)']]
split = len(df) - int(0.2*len(df))
train_multi, test_multi = df_multi[0:split], df_multi[split:]

在[211]中：

from statsmodels.tsa.statespace.varmax import VARMAX

model = VARMAX(train_multi, order = (2,1))
model_fit = model.fit()
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\tsa\statespace\varmax.py:152: 
   EstimationWarning: Estimation of VARMA(p,q) models is not generically robust, 
   due especially to identification issues. 
   EstimationWarning)
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\tsa\base\tsa_model.py:171: 
   ValueWarning: No frequency information was provided, so inferred frequency H will be used. 
  % freq, ValueWarning)
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\base\model.py:508: 
   ConvergenceWarning: Maximum Likelihood optimization failed to converge. Check mle_retvals 
  "Check mle_retvals", ConvergenceWarning)

在[213]中：

predictions_multi = model_fit.forecast( steps=len(test_multi))
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\tsa\base\tsa_model.py:320: 
   FutureWarning: Creating a DatetimeIndex by passing range endpoints is deprecated.  Use `pandas.date_range` instead.
   freq = base_index.freq)
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\tsa\statespace\varmax.py:152: 
   EstimationWarning: Estimation of VARMA(p,q) models is not generically robust, due especially to identification issues.
   EstimationWarning)

在[231]中：

plt.plot(train_multi['T'])
plt.plot(test_multi['T'])
plt.plot(predictions_multi.iloc[:,0:1], '--')
plt.show()

plt.plot(train_multi['C6H6(GT)'])
plt.plot(test_multi['C6H6(GT)'])
plt.plot(predictions_multi.iloc[:,1:2], '--')
plt.show()

上面的代码显示了如何使用 VARMA 模型对多元时间序列进行建模，尽管该模型可能不是最适合我们的数据。

具有外生变量的 VARMA (VARMAX)

它是 VARMA 模型的扩展，其中使用称为协变量的额外变量来对我们感兴趣的主要变量进行建模。

季节性自回归综合移动平均线 (SARIMA)

这是 ARIMA 模型处理季节性数据的扩展。它将数据分为季节性和非季节性部分，并以类似的方式对它们进行建模。它有 7 个参数，非季节性部分 (p,d,q) 参数与 ARIMA 模型相同，季节性部分 (P,D,Q,m) 参数，其中“m”是季节周期数， P、D、Q 与 ARIMA 模型的参数类似。这些参数可以使用网格搜索或遗传算法来校准。

具有外生变量的 SARIMA (SARIMAX)

这是 SARIMA 模型的扩展，包含外生变量，帮助我们对感兴趣的变量进行建模。

在将变量作为外生变量之前对其进行相关分析可能会很有用。

在[251]中：

from scipy.stats.stats import pearsonr
x = train_multi['T'].values
y = train_multi['C6H6(GT)'].values

corr , p = pearsonr(x,y)
print ('Corelation Coefficient =', corr,'\nP-Value =',p)
Corelation Coefficient = 0.9701173437269858
P-Value = 0.0

皮尔逊相关性显示了两个变量之间的线性关系，为了解释结果，我们首先查看 p 值，如果它小于 0.05，则系数值显着，否则系数值不显着。对于显着性 p 值，相关系数的正值表示正相关，负值表示负相关。

因此，对于我们的数据来说，“温度”和“C6H6”似乎具有高度正相关性。因此，我们将

在[297]中：

from statsmodels.tsa.statespace.sarimax import SARIMAX

model = SARIMAX(x, exog = y, order = (2, 0, 2), seasonal_order = (2, 0, 1, 1), enforce_stationarity=False, enforce_invertibility = False)
model_fit = model.fit(disp = False)
c:\users\naveksha\appdata\local\programs\python\python37\lib\site-packages\statsmodels\base\model.py:508: 
   ConvergenceWarning: Maximum Likelihood optimization failed to converge. Check mle_retvals
   "Check mle_retvals", ConvergenceWarning)

在[298]中：

y_ = test_multi['C6H6(GT)'].values
predicted = model_fit.predict(exog=y_)
test_multi_ = pandas.DataFrame(test)
test_multi_['predictions'] = predicted[0:1871]

在[299]中：

plt.plot(train_multi['T'])
plt.plot(test_multi_['T'])
plt.plot(test_multi_.predictions, '--')

输出[299]：

[<matplotlib.lines.Line2D at 0x1eab0191c18>]

与单变量 ARIMA 建模相比，这里的预测现在似乎需要更大的变化。

不用说，只需将相应参数设置为非零值，SARIMAX 就可以用作 ARX、MAX、ARMAX 或 ARIMAX 模型。

分数自回归综合移动平均线 (FARIMA)

有时，我们的级数可能不是平稳的，但与取值 1 的“d”参数进行差分可能会过度差分。因此，我们需要使用小数值对时间序列进行差分。

在数据科学的世界中，没有一种更好的模型，适用于您的数据的模型在很大程度上取决于您的数据集。了解各种模型使我们能够选择一种适用于我们的数据的模型，并尝试该模型以获得最佳结果。结果应该被视为绘图和误差指标，有时一个小误差也可能是不好的，因此，绘制和可视化结果是至关重要的。

在下一章中，我们将讨论另一个统计模型：指数平滑。