统计 - 分层抽样


这种研究策略被用作以下情况的一部分:可以轻松地将人口划分为彼此不相同的群体或阶层,但群体内部的组成部分在某些属性方面是相似的,例如学校的学生可以根据性取向、开设的课程、年龄等进行分层。在此过程中,种群首先被划分为多个层,然后从每个层中采集基本的不规则样本。分层考试有两种:比例分层考试和不比例分层考试。

  • 比例分层抽样- 从每个阶层中选择的单位数量与该阶层在人口中所占的比例成比例,例如,一所大学共有 2500 名学生,其中 1500 名学生就读研究生课程,1000 名学生就读研究生课程培训班。如果使用比例分层抽样选择 100 名样本,则样本中的本科生人数将为 60 人,研究生人数为 40 人。因此,这两个阶层在样本中的比例与它们在总体中的比例相同。

    当抽样的目的是估计某些特征的总体值并且层内方差没有差异时,此方法最适用。

  • 不成比例的分层抽样——当研究的目的是比较各阶层之间的差异时,就有必要从所有阶层中抽取相等的单位,无论其在人口中所占的比例如何。有时,某些层在某些特征方面比其他层变化更大,在这种情况下,可以从变化更大的层中抽取更多数量的单元。在这两种情况下,抽取的样本都是不成比例的分层样本。

    可以使用以下公式来优化分配层大小和层变异性的差异,以确定不同层的样本大小

    公式

    ${n_i = \frac{n.n_i\sigma_i}{n_1\sigma_1+n_2\sigma_2+...+n_k\sigma_k}\ for\ i = 1,2 ...k}$

    其中 -

    • ${n_i}$ = i 层的样本量。

    • ${n}$ = 地层的大小。

    • ${\sigma_1}$ = i 层的标准差。

    除此之外,可能存在这样的情况:某一层的样本采集成本可能高于其他层。最佳不成比例抽样应以以下方式进行:

    ${\frac{n_1}{n_1\sigma_1\sqrt{c_1}} = \frac{n_2}{n_2\sigma_1\sqrt{c_2}} = ... = \frac{n_k}{n_k\sigma_k\sqrt{ c_k}}}$

    其中${c_1, c_2, ... ,c_k}$指的是k层采样的成本。不同层的样本量可以使用以下公式确定:

    ${n_i = \frac{\frac{n.n_i\sigma_i}{\sqrt{c_i}}}{\frac{n_1\sigma_1}{\sqrt{c_i}}+\frac{n_2\sigma_2}{\sqrt {c_2}}+...+\frac{n_k\sigma_k}{\sqrt{c_k}}}\ for\ i = 1,2 ...k}$

例子

问题陈述:

一个组织有 5000 名员工,分为三个级别。

  • A 层:50 名高管,标准差 = 9

  • B 层:1250 名非体力工人,标准差 = 4

  • C 层:3700 名体力工人,标准差 = 1

如何在不成比例的基础上抽取 300 名员工的样本并进行最佳分配?

解决方案:

使用不成比例抽样的公式进行优化分配。

${n_i = \frac{n.n_i\sigma_i}{n_1\sigma_1+n_2\sigma_2+n_3\sigma_3}} \\[7pt] \,对于流 A,{n_1 = \frac{300(50)(9 )}{(50)(9)+(1250)(4)+(3700)(1)}} \\[7pt] \, = {\frac{135000}{1950} = {14.75}\ 或\ 说\ {15}} \\[7pt] \,对于流 B,{n_1 = \frac{300(1250)(4)}{(50)(9)+(1250)(4)+(3700)(1 )}} \\[7pt] \, = {\frac{150000}{1950} = {163.93}\ 或\ say\ {167}} \\[7pt] \, 对于流 C,{n_1 = \frac{ 300(3700)(1)}{(50)(9)+(1250)(4)+(3700)(1)}} \\[7pt] \, = {\frac{110000}{1950} = { 121.3}\ 或\ 比如说\ {121}}$