统计 - 区间估计


区间估计是使用样本数据来计算未知总体参数的可能(或可能)值的区间,这与点估计不同,点估计是单个数字。

公式

${\mu = \bar x \pm Z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt n}}$

其中 -

  • ${\bar x}$ = 平均值

  • ${Z_{\frac{\alpha}{2}}}$ = 置信系数

  • ${\alpha}$ = 置信度

  • ${\sigma}$ = 标准差

  • ${n}$ = 样本量

例子

问题陈述:

假设一名学生测量某种液体的沸腾温度,观察到 6 个不同液体样品的读数(以摄氏度为单位)102.5、101.7、103.1、100.9、100.5 和 102.2。他计算出样本平均值为 101.82。如果他知道此过程的标准差是 1.2 度,那么在 95% 置信水平下总体平均值的区间估计是多少?

解决方案:

学生计算出沸腾温度的样本平均值为 101.82,标准差为 ${\sigma = 0.49}$。95% 置信区间的临界值为 1.96,其中 ${\frac{1-0.95}{2} = 0.025}$。未知平均值的 95% 置信区间。

${ = ((101.82 - (1.96 \times 0.49)), (101.82 + (1.96 \times 0.49))) \\[7pt] \ = (101.82 - 0.96, 101.82 + 0.96) \\[7pt] \ = ( 100.86, 102.78) }$

随着置信水平降低,相应区间的大小也会减小。假设学生对沸腾温度的 90% 置信区间感兴趣。在本例中,${\sigma = 0.90}$ 和 ${\frac{1-0.90}{2} = 0.05}$。该水平的临界值等于 1.645,因此 90% 置信区间为

${ = ((101.82 - (1.645 × 0.49)), (101.82 + (1.645 × 0.49))) \\[7pt] \ = (101.82 - 0.81, 101.82 + 0.81) \\[7pt] \ = ( 101.01, 102.63)}$

样本量的增加将缩短置信区间的长度,但不会降低置信水平。这是因为标准差随着 n 的增加而减小。

误差范围

区间估计的误差幅度 ${m}$ 定义为样本均值的加值或减值,决定了区间的长度:

${Z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt n}}$

假设在上面的示例中,学生希望误差幅度等于 0.5,置信度为 95%。将适当的值代入 ${m}$ 的表达式并求解 n 即可得出计算结果。

${ n = {(1.96 \times \frac{1.2}{0.5})}^2 \\[7pt] \ = {\frac{2.35}{0.5}^2} \\[7pt] \ = {(4.7 )}^2 \ = 22.09 }$

为了实现总长度小于 1 度的平均沸点的 95% 区间估计,学生必须进行 23 次测量。