问卷调查中的抽样设计

问卷调查中有许多重要环节,问卷设计、发放回收、数据编码和处理、统计分析等,而抽样是问卷调查的前提,抽样方法选择的正确与否直接决定着调查数据的可靠程度,同时也就决定了调查的成败。

抽样设计有两点关键:方法的科学和正确,样本数的选取。

抽样方法

抽样调查分为随机抽样和非随机抽样两种。随机抽样的抽样推断是由部分推算整体的方法,它以概率论中的大数法则和中心极限定理为理论依据,可以事先计算和控制抽样误差。通常所说的样本即指由随机抽样方法抽取的总体中的部分。随机抽样方法包括:简单随机抽样、等距抽样、分层抽样和整群抽样。而非随机抽样是指导在抽样时不按照随机原则,而是由调查者根据调查目的和要求,主观设立某个标准从总体中抽选样本的抽样方式。包括:方便抽样、判断抽样、配额抽样和滚雪球抽样。非随机抽样的样本选取有偏差,不能代表总体的特征,因此抽样设计中因予以避免。例如,做读者调查,不论是图书馆使用情况还是满意度调查,都不能只在图书馆内拦截读者作为样本,这种是典型的方便抽样。

抽样方案的设计需要遵循以下几点原则: 1.最佳效果原则(费用与精度相平衡的原则)。 2.现问卷甄别、数据处理相呼应的原则。 3.用户认可的原则。

简单随机抽样最具代表性,但是要针对不同群体对比研究时,样本的差异过大会影响结果。个人以为分层抽样方法较为合理。例如我的项目中调查在校生的阅读倾向,则将符合要求的学生做统计后(除去留学生,成教等)总数为2万多人,考虑要作年级和教育差异对比,可将学生分为本科、硕士、博士三个大群体,根据最大样本数估计需要抽取1068人就足够了。经求取比例,最低比例4.3%可以满足样本需求。各层均按照4.3%进行抽样,做到了各层次中抽取的样本单位数量的比例、该样本在总体中抽取的样本单位的比例、该样本在总体中所占的比例这三个比例保持一致,这就是分层比例抽样。

值得一提的是,非随机抽样中有一种配额抽样和分层比例抽样极为相似。差别在于配额抽样不要求样本结构与总体完全相等,或具有已知的确切关系,具体单位样本的选择也是由调研人员在实施调研时才在给定的配额内主观地选取,其实质是一种分层的估计抽样。

抽样调查具有工作量小、调研费用低、耗时较少等的有点。但在实际操作中应特别注意要采用正确的抽选样本的方法,使样本能真正代表总体,并恰当地确定样本的数目,以便在符合调研要求的前提下降低费用。

样本数的选取

概率抽样的基本原则是:样本量越大,抽样误差就越小,而样本量越大,则成本就越高。根据数理统计规律,样本量增加呈直线递增的情况下(样本量增加一倍,成本也增加一倍),而抽样误差只是样本量相对增长速度的平方根递减。因此,样本量的设计并不是越大越好,通常会受到经济条件的制约。

抽样调查要选取多少样本数才能达到调查目的,又保证成本最低? 在确定样本容量时需要考虑以下因素: ——用户对抽样推断的可靠程度和精确度的要求。 ——不同的抽样组织方式。 ——总体变量值的差异程度。

常用的简单随机抽样的最大样本数公式为:

N = Z 2 σ 2 / E 2 其中, N 为适合样本数; Z 为调查置信度; σ 为总体标准差; E 为抽样误差范围

在解决“比例”方面的调查问题时,公式为:
N = Z 2 [P(1-P)] / E 2
其中, N 为适合样本数; Z 为调查置信度; P 为样本的离散程度; E 为抽样误差范围

本人项目选取了第二种,比例问题公式。由公式得,即当p=0.5时,P(1-P)取最大值,此时的N就是最大样本数。
N = Z 2 / 4·E 2

Z2即为统计课本中的置信区间Z(a/2)的平方,E是边界条件。常用z为95%,E为±3%时,N的取值。本研究的最大样本数为1068。

体的抽样操作可以运用SPSS,用select case并设置抽取条件(案例中使用了数目),就得到样本了。

对统计学、抽样设计、问卷设计、统计分析软件和方法等还处于自己的摸索学习和简单应用阶段,因此多是照葫芦画瓢。希望得到各位的指正。


参考:
贾俊平《统计学基础》;自考多媒体课程《调研计划》自考“社会调查”总复习资料第五章抽样方法比较(doc)非概率抽样(doc)配额抽样法的重新设计与配额计算模型