- 统计教程
- 家
- 调整后的 R 平方
- 方差分析
- 算术平均值
- 算术中位数
- 算术模式
- 算术范围
- 条状图
- 最佳点估计
- 贝塔分布
- 二项分布
- 布莱克-斯科尔斯模型
- 箱线图
- 中心极限定理
- 切比雪夫定理
- 卡方分布
- 卡方表
- 循环排列
- 整群抽样
- 科恩卡帕系数
- 组合
- 与替换组合
- 比较图
- 连续均匀分布
- 连续级数算术平均值
- 连续级数算术中位数
- 连续级数运算模式
- 累积频率
- 变异系数
- 相关系数
- 累计地块
- 累积泊松分布
- 数据采集
- 数据收集 - 问卷设计
- 数据收集-观察
- 数据收集-案例研究方法
- 数据模式
- 十分位数统计
- 离散级数算术平均值
- 离散级数算术中位数
- 离散级数运算模式
- 点图
- 指数分布
- F分布
- F测试台
- 阶乘
- 频率分布
- 伽玛分布
- 几何平均数
- 几何概率分布
- 拟合优度
- 中庸之道
- 甘贝尔分布
- 调和平均值
- 谐波数
- 谐波共振频率
- 直方图
- 超几何分布
- 假设检验
- 个别系列算术平均值
- 个别系列算术中位数
- 个别系列运算模式
- 区间估计
- 逆伽玛分布
- 柯尔莫哥洛夫斯米尔诺夫检验
- 峰度
- 拉普拉斯分布
- 线性回归
- 对数伽玛分布
- 逻辑回归
- 麦克尼马尔测试
- 平均偏差
- 均值差异
- 多项式分布
- 负二项分布
- 正态分布
- 奇数和偶数排列
- 一比例 Z 检验
- 异常值函数
- 排列
- 置换置换
- 饼形图
- 泊松分布
- 合并方差 (r)
- 功率计算器
- 可能性
- 概率加性定理
- 概率倍数定理
- 概率贝叶斯定理
- 概率密度函数
- 过程能力 (Cp) 和过程性能 (Pp)
- 过程西格玛
- 二次回归方程
- 定性数据与定量数据
- 四分位数偏差
- 范围经验法则
- 瑞利分布
- 回归截距置信区间
- 相对标准偏差
- 可靠性系数
- 所需样本量
- 残差分析
- 残差平方和
- 均方根
- 样品策划
- 取样方式
- 散点图
- 香农维纳多样性指数
- 信噪比
- 简单随机抽样
- 偏度
- 标准差
- 标准误差 (SE)
- 标准普通表
- 统计学意义
- 统计公式
- 统计符号
- 茎叶图
- 分层抽样
- 学生 T 检验
- 平方和
- T-分布表
- Ti 83 指数回归
- 转换
- 截尾均值
- I 型和 II 型错误
- 方差
- 维恩图
- 弱大数定律
- Z工作台
- 统计有用资源
- 统计 - 讨论
统计 - 残差分析
残差分析用于通过定义残差并检查残差图来评估线性回归模型的适当性。
剩余的
残差($ e $) 是指观测值($ y $) 与预测值($ \hat y $) 之间的差异。每个数据点都有一个残差。
${ 残差 = 观察值 - 预测值 \\[7pt] e = y - \hat y }$
残差图
残差图是纵轴为残差、横轴为自变量的图表。如果点随机分布在水平轴周围,则线性回归模型适合该数据;否则,选择非线性模型。
残差图的类型
以下示例显示了残差图中的一些模式。
在第一种情况下,点是随机分散的。所以线性回归模型是首选。在第二种和第三种情况下,点是非随机分散的,这表明非线性回归方法是首选。
例子
问题陈述:
检查线性回归模型适用于以下数据的情况。
$ x $ | 60 | 70 | 80 | 85 | 95 |
---|---|---|---|---|---|
$ y $(实际值) | 70 | 65 | 70 | 95 | 85 |
$ \hat y $(预测值) | 65.411 | 71.849 | 78.288 | 81.507 | 87.945 |
解决方案:
步骤 1:计算每个数据点的残差。
$ x $ | 60 | 70 | 80 | 85 | 95 |
---|---|---|---|---|---|
$ y $(实际值) | 70 | 65 | 70 | 95 | 85 |
$ \hat y $(预测值) | 65.411 | 71.849 | 78.288 | 81.507 | 87.945 |
$ e $(剩余) | 4.589 | -6.849 | -8.288 | 13.493 | -2.945 |
步骤 2: - 绘制残差图。
步骤 3: - 检查残差的随机性。
这里残差图呈现出一种随机模式 - 第一个残差为正,接下来的两个残差为负,第四个残差为正,最后一个残差为负。由于模式相当随机,这表明线性回归模型适合上述数据。