抽样框在抽样调查中处于根本地位,是抽样问卷调查必不可少的部分,其对付推断总体具有相称大的影响。
抽样框是用来代表总体,从中抽选样本的一个框架。详细表现形式可以是一个学生的花名册、工商企业名录等。例如:假设现在要调查全国32万所小学的学生家长对付国家“双减政策”的民意调查,从中选取出10所最具有代表性的小学,并从中抽取出10000逻辑学生家上进行调查。
那么在这个例子中 ,总体是32万所小学的学生家长,抽样框是所选出的10所小学的学生家长名册,样本是末了抽取出的10000逻辑学生家长。
当然抽样框也不定是具象的,也可能是抽象的,例如,在大型零售阛阓对购买者或消费者进行随机访问调查时,并没有详细的名册。
抽样框选取能否代表总体,直接决定了调研结果的可靠性。在我们的例子中选取10所学校家长须要能够代表全国32万所学校的学生家长,须要考虑的成分有很多,比如:收入成分、地域成分、宗教成分等等,因此在调研初期,根据调研的目的和主题尽可能确定准确的抽样框,从而减少调查的偏差。
我们来看一个由于抽样框选取缺点,而导致失落败的案例:1936年美国总统选举民意测验。
1936年美国总统大选,竞选的是民主党的罗斯福和共和党的兰登。美国威信的《文学择要》杂志社,为了预测总统候选人谁能当选,采取了大规模的仿照选举(他们以电话簿上的地址和俱车辆注册系统的地址发出1000万封信,收到复书200万封)。预测兰登将以57%对43%的比例得胜,并大力进行宣扬。
末了选举结果却是罗斯福以62%对38%的巨大上风得胜。缘故原由是在1936年的美国,富余的家庭才有私人电话和汽车。为了挽救大冷落造成的经济打击,当时的罗斯福政府强行干预市场经济,从而在富人中普遍缺少好感。
因此,《文学择要》的调查样本不是从总体(全体美国选民)中随机地抽取,而是紧张从富人的抽样框中抽取,这样的调查结果当然对罗斯福不利。
在问卷领域,最关注的是“代表性”,而非数量。因此在选取样本框时,一定要从多方面成分来考虑,从而避免选取出偏差较大的样本框。
大概你想问,怎么才能知道自己的样本数据是否精确。 很遗憾的见告你,没有办法,除非调查了全部的总体,才能准确的知道自己抽取的样本是否精确。 但是没有关系,偏差是会永久存在的,我们须要做的是尽可能的减少偏差,而不是消灭偏差。
二、抽样方法
抽样是指从抽样框或总体中抽取出一部分数据作为样本的动作。抽样的方法有很多,先容几种常见的抽样方法。
1. 大略随机抽样
一样平常的,设一个总体个数为N,如果通过逐个抽取的方法抽取一个样本,且每次抽取时,每个个体被抽到的概率相等,这样的抽样方法为大略随机抽样。适用于总体个数较少的。
2. 系统抽样
当总体的个数比较多的时候,首先把总体分成均衡的几部分,然后按照预先定的规则,从每一个部分中抽取一些个体,得到所须要的样本,这样的抽样方法叫做系统抽样。
3. 分层抽样
抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层中独立抽取一定数量的个体,得到所需样本,这样的抽样方法为分层抽样。适用于总体由差异明显的几部分组成。
4. 整群抽样
整群抽样又称聚类抽样。是将总体中各单位归并成多少个互不交叉、互不重复的凑集,称之为群;然后以群为抽样单位抽取样本的一种抽样办法。运用整群抽样时,哀求各群有较好的代表性,即群内各单位的差异要大,群间差异要小。
5. 多段抽样
多段随机抽样,便是把从调查总体中抽取样本的过程,分成两个或两个以上阶段进行的抽样方法。
系统、分层、整体、多段比较难实现,在问卷调查中常常被利用到的方法是大略随机抽样。
三、如何确定最小取样数量
样本量越大越好吗?样本量确实越大越好,样本越大越靠近数据总体情形,但样本量越大同时也代表须要付出更多的人力和财力,以是每每出于现实成分的考虑,须要确定最少取样数量。最小取样数量公式如下:
n:样本量
𝛔^{2}:方差(用来衡量数据离散程度:𝛔^{2}=\frac{∑(X-μ)^{2}}{N}
X:变量
μ:总体均值
N:总体例数
在调研实际情形中,每每方差都是未知的,以是在这种情形下可用样本率进行预估,当样本率P=0.5时,P(1-P)=0.25,此时为方差理论最大值。
Z_{𝛔/2}:置信度(用来表示估计结果的可靠性)当置信度为95%时,Z_{𝛔/2}=1.96;当置信度为90%时,Z_{𝛔/2}=1.64(其他数值的置信度可以通过正态分布表/t分布表中查到)
E:抽样偏差(用来表示可接管的抽样偏差)
根据最小样本的打算公式我们可知样本量的大小不取决于总体的多少,而取决于研究工具的变革、所哀求或许可的偏差大小,以及哀求推断的置信程度。
举例:当你希望的调查结果要达到90%可靠程度,且偏差不超过2%,那么须要的样本约即是\frac{1.64^{2}\times0.25}{0.02^{2}}=1681个。从统计学角度,在哀求的精准度水平下,不考虑其他的成分影响,若大略随机抽样,300~400个样本已经能够达到置信度95%,偏差率不超过5%。
须要一提的是,当样本低于100时,险些所有的构造方程模型剖析都是不稳定的,大于200以上的样本,才称得上一个中型样本。若要得到稳定的构造方程模型构造,低于200的样本数量是不鼓励的。
作者:WOWdesign,研究设计代价最大化,涉及用户体验、品牌体验、空间体验。
本文由 @WOWdesign 原创发布于大家都是产品经理。未经容许,禁止转载。
题图来自Pexels,基于 CC0 协议