统计 - 简单随机抽样


简单随机样本被定义为总体中每个元素都有平等且独立的被选择机会的样本。对于具有 N 个单位的总体,选择 n 个样本单位的概率以及 N C n个样本的所有可能组合的概率由 1/N C n给出,例如,如果我们有五个元素的总体(A、B、C、 D, E) 即 N 5,并且我们想要一个大小为 n = 3 的样本,则有 5 个C 3 = 10 个可能的样本,并且任何单个单元成为样本成员的概率为 1/10。

简单随机抽样可以通过两种不同的方式进行,即“有替换”或“无替换”。当在下次抽签前替换所选单元后,将单元依次选入样本时,则为带替换的简单随机样本。如果在下一次抽取之前不替换所选择的单位,并且仅从总体的剩余单位中抽取连续单位,则称为无替换的简单随机样本。因此,在前一种方法中,一旦选择的单元可以被重复,而在后者中,一旦选择的单元就不再重复。由于与无需替换的简单随机样本相关的统计效率更高,因此它是首选方法。

可以通过这两种程序中的任何一种来抽取简单的随机样本,即通过抽签方法或通过随机数字表。

  • 抽签方法- 在这种方法下,单位是根据随机抽签来选择的。首先,人口中的每个成员或元素都被分配一个唯一的编号。在下一步中,这些数字被写在形状、大小、颜色等物理上相似的单独卡片上。然后将它们放入篮子中并彻底混合。最后一步,不看纸片,就随机取出它们。抽取的单据数量等于所需的样本量。

    彩票方法有一些缺点。编写N张纸条的过程很麻烦,并且在人口规模非常大的情况下洗牌大量纸条是很困难的。在选择纸条时也可能会出现人为偏见。因此,可以使用另一种选择,即随机数。

  • 随机数字表方法- 由随机准备的数字列组成。随机表的数量可用,例如 Fisher 和 Yates 表、Tippets 随机数等。下面列出的是 Fisher & Yates 表中的两位随机数的序列:

    61, 44, 65, 22, 01, 67, 76, 23, 57, 58, 54, 11, 33, 86, 07, 26, 75, 76, 64, 22, 19, 35, 74, 49, 86, 58、69、52、27、34、91、25、34、67、76、73、27、16、53、18、19、69、32、52、38、72、38、64、81、79 和38.

    第一步涉及为人口中的每个成员分配一个唯一的编号,例如,如果人口由 20 人组成,则所有个体的编号从 01 到 20。如果我们要收集 5 个单位的样本,则参考随机数字表 5选择两位数的数字。例如,使用上表,具有以下五个数字的单元将形成一个样本:01、11、07、19和16。如果采样是无放回的并且特定的随机数重复自身,则不会再次进行采样并进行下一个采样。将选择符合我们标准的数字。

因此,可以使用这两个过程中的任何一个来抽取简单的随机样本。然而在实践中,我们发现简单的随机抽样需要花费大量的时间和精力,而且不切实际。