统计 - 残差分析


残差分析用于通过定义残差并检查残差图来评估线性回归模型的适当性。

剩余的

残差($ e $) 是指观测值($ y $) 与预测值($ \hat y $) 之间的差异。每个数据点都有一个残差。

${ 残差 = 观察值 - 预测值 \\[7pt] e = y - \hat y }$

残差图

残差图是纵轴为残差、横轴为自变量的图表。如果点随机分布在水平轴周围,则线性回归模型适合该数据;否则,选择非线性模型。

残差图的类型

以下示例显示了残差图中的一些模式。

残差图

在第一种情况下,点是随机分散的。所以线性回归模型是首选。在第二种和第三种情况下,点是非随机分散的,这表明非线性回归方法是首选。

例子

问题陈述:

检查线性回归模型适用于以下数据的情况。

$ x $6070808595
$ y $(实际值)7065709585
$ \hat y $(预测值)65.41171.84978.28881.50787.945

解决方案:

步骤 1:计算每个数据点的残差。

$ x $6070808595
$ y $(实际值)7065709585
$ \hat y $(预测值)65.41171.84978.28881.50787.945
$ e $(剩余)4.589-6.849-8.28813.493-2.945

步骤 2: - 绘制残差图。

残差图

步骤 3: - 检查残差的随机性。

这里残差图呈现出一种随机模式 - 第一个残差为正,接下来的两个残差为负,第四个残差为正,最后一个残差为负。由于模式相当随机,这表明线性回归模型适合上述数据。