- 统计教程
- 家
- 调整后的 R 平方
- 方差分析
- 算术平均值
- 算术中位数
- 算术模式
- 算术范围
- 条状图
- 最佳点估计
- 贝塔分布
- 二项分布
- 布莱克-斯科尔斯模型
- 箱线图
- 中心极限定理
- 切比雪夫定理
- 卡方分布
- 卡方表
- 循环排列
- 整群抽样
- 科恩卡帕系数
- 组合
- 与替换组合
- 比较图
- 连续均匀分布
- 连续级数算术平均值
- 连续级数算术中位数
- 连续级数运算模式
- 累积频率
- 变异系数
- 相关系数
- 累计地块
- 累积泊松分布
- 数据采集
- 数据收集 - 问卷设计
- 数据收集-观察
- 数据收集-案例研究方法
- 数据模式
- 十分位数统计
- 离散级数算术平均值
- 离散级数算术中位数
- 离散级数运算模式
- 点图
- 指数分布
- F分布
- F测试台
- 阶乘
- 频率分布
- 伽玛分布
- 几何平均数
- 几何概率分布
- 拟合优度
- 中庸之道
- 甘贝尔分布
- 调和平均值
- 谐波数
- 谐波共振频率
- 直方图
- 超几何分布
- 假设检验
- 个别系列算术平均值
- 个别系列算术中位数
- 个别系列运算模式
- 区间估计
- 逆伽玛分布
- 柯尔莫哥洛夫斯米尔诺夫检验
- 峰度
- 拉普拉斯分布
- 线性回归
- 对数伽玛分布
- 逻辑回归
- 麦克尼马尔测试
- 平均偏差
- 均值差异
- 多项式分布
- 负二项分布
- 正态分布
- 奇数和偶数排列
- 一比例 Z 检验
- 异常值函数
- 排列
- 置换置换
- 饼形图
- 泊松分布
- 合并方差 (r)
- 功率计算器
- 可能性
- 概率加性定理
- 概率倍数定理
- 概率贝叶斯定理
- 概率密度函数
- 过程能力 (Cp) 和过程性能 (Pp)
- 过程西格玛
- 二次回归方程
- 定性数据与定量数据
- 四分位数偏差
- 范围经验法则
- 瑞利分布
- 回归截距置信区间
- 相对标准偏差
- 可靠性系数
- 所需样本量
- 残差分析
- 残差平方和
- 均方根
- 样品策划
- 取样方式
- 散点图
- 香农维纳多样性指数
- 信噪比
- 简单随机抽样
- 偏度
- 标准差
- 标准误差 (SE)
- 标准普通表
- 统计学意义
- 统计公式
- 统计符号
- 茎叶图
- 分层抽样
- 学生 T 检验
- 平方和
- T-分布表
- Ti 83 指数回归
- 转换
- 截尾均值
- I 型和 II 型错误
- 方差
- 维恩图
- 弱大数定律
- Z工作台
- 统计有用资源
- 统计 - 讨论
统计 - 峰度
分布的尾部程度通过峰度来衡量。它告诉我们与正态分布相比,该分布或多或少容易出现异常值(重尾或轻尾)的程度。由 Investopedia 提供的三种不同类型的曲线如下所示 -
很难从密度图(左图)中辨别不同类型的峰度,因为所有分布的尾部都接近于零。但在正常的分位数-分位数图(右图)中很容易看出尾部的差异。
正态曲线称为中峰曲线。如果分布曲线比正态曲线或中峰曲线更容易出现异常(或重尾),则它被称为轻峰曲线。如果一条曲线比正常曲线更不易出现异常(或尾部较浅),则称为 platykurtic 曲线。峰度通过矩来测量,并由以下公式给出 -
公式
${\beta_2 = \frac{\mu_4}{\mu_2}}$
其中 -
${\mu_4 = \frac{\sum(x- \bar x)^4}{N}}$
β2 的值越大,曲线越尖峰或尖峰。正态曲线的值为 3,尖峰曲线的 β_2 大于 3,而平峰曲线的 β_2 小于 3。
例子
问题陈述:
给出了某工厂45名工人日工资数据。使用均值矩计算 beta_1 和 beta_2。对结果发表评论。
工资(卢比) | 工人数量 |
---|---|
100-200 | 1 |
120-200 | 2 |
140-200 | 6 |
160-200 | 20 |
180-200 | 11 |
200-200 | 3 |
220-200 | 2 |
解决方案:
工资 (卢比) | 工人人数 (女性) | 中点 _ | m-${\frac{170}{20}}$ d | ${fd}$ | ${fd^2}$ | ${fd^3}$ | ${fd^4}$ |
---|---|---|---|---|---|---|---|
100-200 | 1 | 110 | -3 | -3 | 9 | -27 | 81 |
120-200 | 2 | 130 | -2 | -4 | 8 | -16 | 32 |
140-200 | 6 | 150 | -1 | -6 | 6 | -6 | 6 |
160-200 | 20 | 170 | 0 | 0 | 0 | 0 | 0 |
180-200 | 11 | 190 | 1 | 11 | 11 | 11 | 11 |
200-200 | 3 | 210 | 2 | 6 | 12 | 24 | 48 |
220-200 | 2 | 230 | 3 | 6 | 18 | 54 | 162 |
${N=45}$ | ${\总和 fd = 10}$ | ${\总和fd^2 = 64}$ | ${\总和fd^3 = 40}$ | ${\总和fd^4 = 330}$ |
由于偏差是根据假设的平均值得出的,因此我们首先计算关于任意原点的矩,然后计算关于平均值的矩。关于任意起源“170”的时刻
${\mu_1^1= \frac{\sum fd}{N} \times i = \frac{10}{45} \times 20 = 4.44 \\[7pt] \mu_2^1= \frac{\sum fd ^2}{N} \times i^2 = \frac{64}{45} \times 20^2 =568.88 \\[7pt] \mu_3^1= \frac{\sum fd^2}{N} \次 i^3 = \frac{40}{45} \times 20^3 =7111.11 \\[7pt] \mu_4^1= \frac{\sum fd^4}{N} \times i^4 = \frac {330}{45} \乘以20^4 =1173333.33 }$
关于平均数的时刻
${\mu_2 = \mu'_2 - (\mu'_1)^2 = 568.88-(4.44)^2 = 549.16 \\[7pt] \mu_3 = \mu'_3 - 3(\mu'_1)(\ mu'_2) + 2(\mu'_1)^3 \\[7pt] \, = 7111.11 - (4.44) (568.88)+ 2(4.44)^3 \\[7pt] \, = 7111.11 - 7577.48+175.05 = - 291.32 \\[7pt] \\[7pt] \mu_4= \mu'_4 - 4(\mu'_1)(\mu'_3) + 6 (\mu_1 )^2 (\mu'_2) -3 (\mu'_1)^4 \\[7pt] \, = 1173333.33 - 4 (4.44)(7111.11)+6(4.44)^2 (568.88) - 3(4.44)^4 \\[7pt] \, = 1173333.33 - 126293.31+67288.03-1165.87 \\[7pt] \, = 1113162.18 }$
根据平均值的移动值,我们现在可以计算 ${\beta_1}$ 和 ${\beta_2}$:
${\beta_1 = \mu^2_3 = \frac{(-291.32)^2}{(549.16)^3} = 0.00051 \\[7pt] \beta_2 = \frac{\mu_4}{(\mu_2)^2 } = \frac{1113162.18}{(546.16)^2} = 3.69 }$
从上面的计算可以得出,衡量偏度的${\beta_1}$几乎为零,从而表明分布几乎是对称的。${\beta_2}$ 用于测量峰度,其值大于 3,因此意味着分布是尖峰的。