查找数据集中的异常值
异常值是不符合其余数字模式的数据点。它们是数据集中的极高或极低值。
查找异常值的一个简单方法是检查数据集中的数字。我们将看到大多数数字都聚集在一个范围内,并且某些数字与其余数字相比太低或太高。这些数字被称为异常值。
异常值的其他定义
与其他数据明显分开的数据点。异常值的一个定义是低于第一四分位数或高于第三四分位数超过 1.5 个四分位数 (IQR) 的任何数据点。四分位数间距 (IQR) 是数据集的第三个四分位数和第一个四分位数之间的差值。
查找数据 0、2、5、6、9、12、35 的异常值。
解决方案
对于给定的数据集,我们有以下五数总结。
最小值 = 0
第一个四分位数 = 2
中位数 = 6
第三个四分位数 = 12
最大值 = 35
IQR = 12 – 2 = 10,因此 1.5·IQR = 15。
为了确定是否存在异常值,我们必须考虑超出四分位数 1.5·IQR 或 15 的数字。
第一个四分位数 – 1.5·IQR = 2 – 15 = –13
第三个四分位数 + 1.5·IQR = 12 + 15 = 27
由于 35 不在 –13 到 27 的区间内,因此 35 是该数据集中的异常值。
找出下面给定数据集中的异常值。
28, 26, 29, 30, 81, 32, 37
解决方案
步骤1:
与给定集合中其他数字不同的数据是 81
第2步:
所以该数据集的异常值是 81
找出下面给定数据集中的异常值。
16, 14, 3, 12, 15, 17, 22, 15, 52
解决方案
步骤1:
与给定集合中其他数字不同的数据是 52
第2步:
所以该数据集的异常值是 52