统计 - 异常值函数


概率分布函数中的离群值是指距下四分位数或上四分位数超过数据集长度 1.5 倍的数字。具体来说,如果某个数字小于 ${Q_1 - 1.5 \times IQR}$ 或大于 ${Q_3 + 1.5 \times IQR}$,则它是异常值。

异常值由以下概率函数定义和给出:

公式

${异常值\数据\为\, \lt Q_1 - 1.5 \times IQR\ (或)\ \gt Q_3 + 1.5 \times IQR }$

其中 -

  • ${Q_1}$ = 第一个四分位数

  • ${Q_2}$ = 第三个四分位数

  • ${IQR}$ = 四分位间距

例子

问题陈述:

考虑一个代表 8 个不同学生周期性任务计数的数据集。任务计数信息集为 11、13、15、3、16、25、12 和 14。从学生周期性任务计数中发现异常数据。

解决方案:

给定的数据集是:

111315316251214

按升序排列:

311121314151625

第一个四分位数值() ${Q_1}$

${ Q_1 = \frac{(11 + 12)}{2} \\[7pt] \ = 11.5 }$

第三个四分位数值() ${Q_3}$

${ Q_3 = \frac{(15 + 16)}{2} \\[7pt] \ = 15.5 }$

离群值范围下限 (L)

${ Q_1 - 1.5 \times IQR \\[7pt] \ = 11.5 - (1.5 \times 4) \\[7pt] \ = 11.5 - 6 \\[7pt] \= 5.5 }$

离群值上限 (L)

${ Q_3 + 1.5 \times IQR \\[7pt] \ = 15.5 + (1.5 \times 4) \\[7pt] \ = 15.5 + 6 \\[7pt] \ = 21.5 }$

在给定信息中,5.5和21.5比给定数据集中的其他值更大,即除了3和25之外,因为3大于5.5并且25小于21.5。

这样,我们利用 3 和 25 作为离群值。