- 统计教程
- 家
- 调整后的 R 平方
- 方差分析
- 算术平均值
- 算术中位数
- 算术模式
- 算术范围
- 条状图
- 最佳点估计
- 贝塔分布
- 二项分布
- 布莱克-斯科尔斯模型
- 箱线图
- 中心极限定理
- 切比雪夫定理
- 卡方分布
- 卡方表
- 循环排列
- 整群抽样
- 科恩卡帕系数
- 组合
- 与替换组合
- 比较图
- 连续均匀分布
- 连续级数算术平均值
- 连续级数算术中位数
- 连续级数运算模式
- 累积频率
- 变异系数
- 相关系数
- 累计地块
- 累积泊松分布
- 数据采集
- 数据收集 - 问卷设计
- 数据收集-观察
- 数据收集-案例研究方法
- 数据模式
- 十分位数统计
- 离散级数算术平均值
- 离散级数算术中位数
- 离散级数运算模式
- 点图
- 指数分布
- F分布
- F测试台
- 阶乘
- 频率分布
- 伽玛分布
- 几何平均数
- 几何概率分布
- 拟合优度
- 中庸之道
- 甘贝尔分布
- 调和平均值
- 谐波数
- 谐波共振频率
- 直方图
- 超几何分布
- 假设检验
- 个别系列算术平均值
- 个别系列算术中位数
- 个别系列运算模式
- 区间估计
- 逆伽玛分布
- 柯尔莫哥洛夫斯米尔诺夫检验
- 峰度
- 拉普拉斯分布
- 线性回归
- 对数伽玛分布
- 逻辑回归
- 麦克尼马尔测试
- 平均偏差
- 均值差异
- 多项式分布
- 负二项分布
- 正态分布
- 奇数和偶数排列
- 一比例 Z 检验
- 异常值函数
- 排列
- 置换置换
- 饼形图
- 泊松分布
- 合并方差 (r)
- 功率计算器
- 可能性
- 概率加性定理
- 概率倍数定理
- 概率贝叶斯定理
- 概率密度函数
- 过程能力 (Cp) 和过程性能 (Pp)
- 过程西格玛
- 二次回归方程
- 定性数据与定量数据
- 四分位数偏差
- 范围经验法则
- 瑞利分布
- 回归截距置信区间
- 相对标准偏差
- 可靠性系数
- 所需样本量
- 残差分析
- 残差平方和
- 均方根
- 样品策划
- 取样方式
- 散点图
- 香农维纳多样性指数
- 信噪比
- 简单随机抽样
- 偏度
- 标准差
- 标准误差 (SE)
- 标准普通表
- 统计学意义
- 统计公式
- 统计符号
- 茎叶图
- 分层抽样
- 学生 T 检验
- 平方和
- T-分布表
- Ti 83 指数回归
- 转换
- 截尾均值
- I 型和 II 型错误
- 方差
- 维恩图
- 弱大数定律
- Z工作台
- 统计有用资源
- 统计 - 讨论
统计 - 异常值函数
概率分布函数中的离群值是指距下四分位数或上四分位数超过数据集长度 1.5 倍的数字。具体来说,如果某个数字小于 ${Q_1 - 1.5 \times IQR}$ 或大于 ${Q_3 + 1.5 \times IQR}$,则它是异常值。
异常值由以下概率函数定义和给出:
公式
${异常值\数据\为\, \lt Q_1 - 1.5 \times IQR\ (或)\ \gt Q_3 + 1.5 \times IQR }$
其中 -
${Q_1}$ = 第一个四分位数
${Q_2}$ = 第三个四分位数
${IQR}$ = 四分位间距
例子
问题陈述:
考虑一个代表 8 个不同学生周期性任务计数的数据集。任务计数信息集为 11、13、15、3、16、25、12 和 14。从学生周期性任务计数中发现异常数据。
解决方案:
给定的数据集是:
11 | 13 | 15 | 3 | 16 | 25 | 12 | 14 |
按升序排列:
3 | 11 | 12 | 13 | 14 | 15 | 16 | 25 |
第一个四分位数值() ${Q_1}$
${ Q_1 = \frac{(11 + 12)}{2} \\[7pt] \ = 11.5 }$
第三个四分位数值() ${Q_3}$
${ Q_3 = \frac{(15 + 16)}{2} \\[7pt] \ = 15.5 }$
离群值范围下限 (L)
${ Q_1 - 1.5 \times IQR \\[7pt] \ = 11.5 - (1.5 \times 4) \\[7pt] \ = 11.5 - 6 \\[7pt] \= 5.5 }$
离群值上限 (L)
${ Q_3 + 1.5 \times IQR \\[7pt] \ = 15.5 + (1.5 \times 4) \\[7pt] \ = 15.5 + 6 \\[7pt] \ = 21.5 }$
在给定信息中,5.5和21.5比给定数据集中的其他值更大,即除了3和25之外,因为3大于5.5并且25小于21.5。
这样,我们利用 3 和 25 作为离群值。