统计 - 拟合优度


拟合优度检验用于检查样本数据是否符合总体分布。总体可能具有正态分布或威布尔分布。简单来说,它意味着样本数据正确地代表了我们期望从实际总体中找到的数据。统计学家通常使用以下测试:

  • 卡方

  • 柯尔莫哥洛夫-斯米尔诺夫

  • 安德森-达林

  • 希皮罗-威尔克

卡方检验

卡方检验最常用于检验拟合优度,用于二项式分布和泊松分布等离散分布,而 Kolmogorov-Smirnov 和 Anderson-Darling 拟合优度检验则用于连续分布。

公式

${ X^2 = \sum {[ \frac{(O_i - E_i)^2}{E_i}]} }$

其中 -

  • ${O_i}$ = 第 i 级变量的观测值。

  • ${E_i}$ = 第 i 级变量的期望值。

  • ${X^2}$ = 卡方随机变量。

例子

一家玩具公司生产足球运动员玩具。声称30%的卡是中场球员,60%是后卫,10%是前锋。考虑 100 个玩具的随机样本,其中有 50 名中场球员、45 名后卫和 5 名前锋。给定 0.05 的显着性水平,你能证明公司的说法是合理的吗?

解决方案:

确定假设

  • 零假设$H_0$ ——中场、后卫、前锋的比例分别为30%、60%、10%。

  • 备择假设 $ H_1 $ - 原假设中至少有一个比例是错误的。

确定自由度

自由度 DF 等于分类变量的级别数 (k) 减 1:DF = k - 1。此处级别为 3。因此

${ DF = k - 1 \\[7pt] \, = 3 -1 = 2 }$

确定卡方检验统计量

${ X^2 = \sum {[ \frac{(O_i - E_i)^2}{E_i}]} \\[7pt] \, = [\frac{(50-30)^2}{30}] + [\frac{(45-60)^2}{60}] + [\frac{(5-10)^2}{10}] \\[7pt] \, = \frac{400}{30} + \frac{225}{60} + \frac{25}{10} \\[7pt] \, = 13.33 + 3.75 + 2.50 \\[7pt] \, = 19.58 }$

确定 p 值

P 值是具有 2 个自由度的卡方统计量 $ X^2 $ 比 19.58 更极端的概率。使用卡方分布计算器查找 $ { P(X^2 \gt 19.58) = 0.0001 } $。

解释结果

由于 P 值 (0.0001) 远小于显着性水平 (0.05),因此不能接受原假设。因此,公司主张无效。