统计 - 峰度


分布的尾部程度通过峰度来衡量。它告诉我们与正态分布相比,该分布或多或少容易出现异常值(重尾或轻尾)的程度。由 Investopedia 提供的三种不同类型的曲线如下所示 -

峰度

很难从密度图(左图)中辨别不同类型的峰度,因为所有分布的尾部都接近于零。但在正常的分位数-分位数图(右图)中很容易看出尾部的差异。

正态曲线称为中峰曲线。如果分布曲线比正态曲线或中峰曲线更容易出现异常(或重尾),则它被称为轻峰曲线。如果一条曲线比正常曲线更不易出现异常(或尾部较浅),则称为 platykurtic 曲线。峰度通过矩来测量,并由以下公式给出 -

公式

${\beta_2 = \frac{\mu_4}{\mu_2}}$

其中 -

  • ${\mu_4 = \frac{\sum(x- \bar x)^4}{N}}$

β2 的值越大,曲线越尖峰或尖峰。正态曲线的值为 3,尖峰曲线的 β_2 大于 3,而平峰曲线的 β_2 小于 3。

例子

问题陈述:

给出了某工厂45名工人日工资数据。使用均值矩计算 beta_1 和 beta_2。对结果发表评论。

工资(卢比)工人数量
100-2001
120-2002
140-2006
160-20020
180-20011
200-2003
220-2002

解决方案:

工资
(卢比)
工人人数
(女性)
中点
_
m-${\frac{170}{20}}$
d
${fd}$${fd^2}$${fd^3}$${fd^4}$
100-2001110-3-39-2781
120-2002130-2-48-1632
140-2006150-1-66-66
160-2002017000000
180-20011190111111111
200-200321026122448
220-2002230361854162
 ${N=45}$  ${\总和 fd = 10}$${\总和fd^2 = 64}$${\总和fd^3 = 40}$${\总和fd^4 = 330}$

由于偏差是根据假设的平均值得出的,因此我们首先计算关于任意原点的矩,然后计算关于平均值的矩。关于任意起源“170”的时刻

${\mu_1^1= \frac{\sum fd}{N} \times i = \frac{10}{45} \times 20 = 4.44 \\[7pt] \mu_2^1= \frac{\sum fd ^2}{N} \times i^2 = \frac{64}{45} \times 20^2 =568.88 \\[7pt] \mu_3^1= \frac{\sum fd^2}{N} \次 i^3 = \frac{40}{45} \times 20^3 =7111.11 \\[7pt] \mu_4^1= \frac{\sum fd^4}{N} \times i^4 = \frac {330}{45} \乘以20^4 =1173333.33 }$

关于平均数的时刻

${\mu_2 = \mu'_2 - (\mu'_1)^2 = 568.88-(4.44)^2 = 549.16 \\[7pt] \mu_3 = \mu'_3 - 3(\mu'_1)(\ mu'_2) + 2(\mu'_1)^3 \\[7pt] \, = 7111.11 - (4.44) (568.88)+ 2(4.44)^3 \\[7pt] \, = 7111.11 - 7577.48+175.05 = - 291.32 \\[7pt] \\[7pt] \mu_4= \mu'_4 - 4(\mu'_1)(\mu'_3) + 6 (\mu_1 )^2 (\mu'_2) -3 (\mu'_1)^4 \\[7pt] \, = 1173333.33 - 4 (4.44)(7111.11)+6(4.44)^2 (568.88) - 3(4.44)^4 \\[7pt] \, = 1173333.33 - 126293.31+67288.03-1165.87 \\[7pt] \, = 1113162.18 }$

根据平均值的移动值,我们现在可以计算 ${\beta_1}$ 和 ${\beta_2}$:

${\beta_1 = \mu^2_3 = \frac{(-291.32)^2}{(549.16)^3} = 0.00051 \\[7pt] \beta_2 = \frac{\mu_4}{(\mu_2)^2 } = \frac{1113162.18}{(546.16)^2} = 3.69 }$

从上面的计算可以得出,衡量偏度的${\beta_1}$几乎为零,从而表明分布几乎是对称的。${\beta_2}$ 用于测量峰度,其值大于 3,因此意味着分布是尖峰的。