统计 - 柯尔莫哥洛夫斯米尔诺夫检验


该检验用于必须在观察到的样本分布与理论分布之间进行比较的情况。

KS 一个样本测试

该检验用作拟合优度检验,当样本量较小时是理想的选择。它将变量的累积分布函数与指定分布进行比较。原假设假设观察到的分布与理论分布之间没有差异,并且检验统计量“D”的值计算如下:

公式

$D = 最大值 |F_o(X)-F_r(X)|$

其中 -

  • ${F_o(X)}$ = n 个观测值的随机样本的观测累积频率分布。

  • 且 ${F_o(X) = \frac{k}{n}}$ = (观测值数量 ≤ X)/(观测值总数)。

  • ${F_r(X)}$ = 理论频率分布。

${D}$ 的临界值是从一个样本测试的 KS 表值中找到的。

接受标准:如果计算值小于临界值,则接受原假设。

拒绝标准:如果计算值大于表值,则拒绝原假设。

例子

问题陈述:

在一项对一所大学各个流系进行的研究中,我们采访了 60 名学生,每个流派的学生人数相同,并注意到他们加入大学戏剧俱乐部的意图。

 理学学士学士B.Com微康
各班人数59111619

预计每个班有12名学生加入戏剧社。使用 KS 测试来了解学生班级在加入戏剧俱乐部的意图方面是否存在差异。

解决方案:

${H_o}$:不同流派的学生加入戏剧社的意愿没有差异。

我们开发了观测分布和理论分布的累积频率。

有兴趣加入的学生人数${F_O(X)}$${F_T(X)}$${|F_O(X)-F_T(X)|}$
 观察到的
(O)
理论值
(T)
   
理学学士5125/6012/607/60
学士91214/6024/6010/60
B.COM。111225/6036/6011/60
161241/6048/607/60
M.COM。191260/4060/6060/60
全部的n=60    

检验统计量 ${|D|}$ 计算如下:

$D = 最大值 {|F_0 (X)-F_T (X)|} \\[7pt] \, = \frac{11}{60} \\[7pt] \, = 0.183$

5% 显着性水平下的 D 表值由下式给出

${D_0.05 = \frac{1.36}{\sqrt{n}}} \\[7pt] \, = \frac{1.36}{\sqrt{60}} \\[7pt] \, = 0.175$

由于计算值大于临界值,因此我们拒绝零假设并得出结论:不同流派的学生加入俱乐部的意愿存在差异。

KS 两样本测试

当有两个独立样本而不是一个时,可以使用 KS 二样本检验来检验两个累积分布之间的一致性。原假设表明两个分布之间没有差异。D 统计量的计算方式与 KS 单样本检验相同。

公式

${D = 最大值 |{F_n}_1(X)-{F_n}_2(X)|}$

其中 -

  • ${n_1}$ = 第一个样本的观察结果。

  • ${n_2}$ = 第二个样本的观察结果。

可以看出,当累积分布显示较大的最大偏差 ${|D|}$ 时,表明两个样本分布之间存在差异。

对于 ${n_1 = n_2}$ 且 ≤ 40 的样本,D 的临界值使用两个样本情况的 KS 表。当 ${n_1}$ 和/或 ${n_2}$ > 40 时,应使用两样本检验的大样本 KS 表。如果计算值小于表值,则接受原假设,反之亦然。

因此,当目标人群的特征未知或没有做出任何假设时,使用任何这些非参数检验都有助于研究人员检验其结果的显着性。