3抽样调查
3.1简短的历史
哪怕是一个不太大的国家,人口也是一个庞大的数字。要对其居民的年龄、性别、财产、受教育程度、职业等等一一进行调查,其工作量是极其巨大的.但为治国的需要,这种工作又不能不做,我国l0年一度的人口普查是这种例子。对群体中的个体逐一做调查,称为普查。除了人口以外,其他需要调查了解的对象还很多,如工业企业的调查,农村小学情况的调查,妇女情况的调查等。
由于普查在人力物力时间上花费太大,人们希望通过调查群体中的一部分个体来了解整个群体,这就是抽样调查。抽出来的那部分个体称为样本,这是指全部被抽个体的集体.也常常把样本中的每一个体称为样本。样本中所含的个体数叫做样本量。通常,我们关心的不是这些个体本身,而是其某一或某些指标。因此,也常把样本中个体的指标值称为样本。例如,从某市的工人中抽取1 000名调查其工资状况,所得的1 000个数据构成样本。
抽样调查的活动现已很普遍。记者拿着话筒在街头采访随意碰到的民众,就是一种抽样调查。电视台调查收视率,厂家对其推出的产品了解市场反映,也通过抽样调查进行。一些国家在大选年要多次进行民意测验,以估计各候选人的支持率如何。大的国家选民以千万以至以亿计,而被调查者一般只有成百上千人。为了解仓库存货的质量状况,河流湖泊的水质和大气污染状况等,都要做抽样调查的工作,可见这一方法应用之广。
历史上较早的一个抽样调查的例子,是法国大数学家拉普拉斯于1802年受政府的委托所进行的法国人口数的估计工作。拉普拉斯的想法如下:把人口总数与一年内出生人口数之比记为a。假定已知道了a,则因为一年内出生的人口数较易调查落实,把此数乘以a,即得全国的人口总数,问题在于确定a的值。拉普拉斯假定国内各地区出生率相去不太远。他在国内选择若干有代表性的小地区——有沿海的、平原的、山区的等等,每个地区都是够小,使该地区内总人口数与一年内出生人口数不难调查出。这样,对每一个受调查的小地区,可以计算出一个a值——该地区总人数与一年内出生人数之比,由若干个小地区得到若干个a值,以其平均作为全国a值的估计。
拉普拉斯的方法也曾由其他的统计学家用于比利时等低地国家,经与由普查所得结果比较,发现其精度不够满意。现在知道,较大的误差是由于工作中的问题而非抽样方法的问题,但这一事实影响了人们对抽样调查可信性的看法。因此,直到19世纪末,抽样调查的方法在实际中的使用而不广。另一个例子是,在1861年,英同的法尔博士曾做过人口抽样调查。他在英国选取了14个地区,包含人口26万多人,调查的指标是家庭数及每个家庭的人口数等。抽样调查在应用上受冷落的情况到19世纪未才出现转机,打先锋的人物是挪威统计学家凯尔。
凯尔生于1838年。当挪威统计局成为一个负责收集和解释有关社会和人口的统计资料的独立机构时,他成为该局的局长。在这个职位上,他领导了全国人口和农业的普查工作,时间是19世纪最后20年,在这段时期中,他发展了他的“代表性抽样”的思想。
所谓“代表性抽样”,是指从群体——在统计学上常称为总体——中抽出的一组样本,它在所关注的指标上可以代表该群体,换句话说,是一个小型化了的群体。比方说,某一社区的居民按经济状况可分为3类:较富裕的100人,一般情况的1 000人,较差的300人。现分别从这3类人中抽取2人20人和6人,则由这28人组成的样本是一个代表性样本。通过对他们的调查资料所做的分析,可以对该社医居民的经济状况做出一些判断,准确程度如何,要看样本的代表性而定。例如对3类人的比例的认定与实际情况接近的程度如何,在每一类人中所选的样本,其在该类中的代表性如何等等。
这个思想易于理解,问题是如何取得样本。凯尔的做法是,把人群按地理、社会和经济等条件分成一些“层”,按各层所占比例,在各层中尽可能周到地处理取样的问题。例如在
1894年,他在挪威进行了一个关于退休金和疾病保险金的调查。当时挪威城乡人口之比约为1:3,因此凯尔决定在城市中抽2万人,从乡村中抽6万人。城市中拟抽取的2万人,按下面的方式分配:首先,挑出13个有代表性的城镇,其中包括当时人口在2万以上的全部5个城镇。这13个城镇约占当时挪威城镇总数的1/5。然后,在每个被挑出的城镇中,把其人口按经济状况分层。由于没有城镇中全部居民经济状况的资料,这个工作只能用一种间接的方式去做。如在其中一城镇中有400条街道,其中居民数在100人以下的有100条.在101—500人之间的有187条,等等。人口数少的街道一般为富人所居住,因此这可以作为一个分层的标准。凯尔的做法是:居民数少于100人的那100条街道全取出来,每条街上抽取其1/20的人,居民在l0l—500人的那187条街道只抽取1/10,但在抽出的每条街中,其住户要有一半被抽出,等等,这样使各阶层的人口大致都有5%的比例进入样本。在乡村,凯尔主要按居民所从事的职业来分层。因为一般讲由人的职业大体上可以判定其收人的层次。凯尔的这个实例表明:虽然代表性抽样的思想很简单,但在实际问题中做起来不容易,这是所有的抽样调查工作都要碰到的一个共同问题。
在那个期间,凯尔还进行了若干与此类似的抽样调查工作,基于在这 工作中取得的经验.他于1895年召开的国际统计学会大会上,正式提出了代表性抽样的主张,在会上引起了争议。但到1903年国际统计学会再度开会时,他的主张已得到了更多的支持。国际统计学会为研究这个问题而成立的委员会,也在一定的保留下接受了他的主张。
凯尔主张的要点,如上所述,是用代表性抽样取代全面普查。除此之外,他还认为,为得到群体平均值的满意的估计,所需的样本量无需太大。这个看法,由于缺少必要的理论支持.在当时看来是可疑的。当时统计界的普遍看法是:样本量应与群体大小成比侧:群体中所含个体愈多,则样本中应包含更多的个体。这个想法从外表上看很合理而自然。直到现在,不懂统计学原理的人恐怕也还是持这个看法。然而理论表明,凯尔的看法是正确的。但在当时,不少人认为如果需要在抽取大量样本的同时小心保证其代表性,其工作量恐未见得比普查节省多少。由于凯尔的主张主要是根据经验而缺乏理论上的论证,使他的主张不易深入人心,所以虽有了国际统计学会1903年的决定,代表性抽样方法在当时还未能在实践中站稳脚跟。
代表性抽样是由部分去推断整体,这必然会产生误差,要使人相信这种方法可用,必须对误差做出适当的估计。凯尔的代表性抽样中有些操作是主观的(这由前面所描述的他在1894年所做的调查工作的细节可以看出),无法用一种客观的数学模型去描述,因而误差的估计也就无从着手。解决这个重要问题的功绩,主要应归于英国学者鲍莱,他的工作是抽样调查方法发展史上的一块里程碑,因为他提出了“随机抽样”的方法。鲍莱是在l906年英国科学促进协会的经济和统计学组的会议上发表的“主席致辞”中提出他的方法的。
随机抽样的方法,在实践中可以用从简单到复杂的种种形态表现出来,但方法的精神归结到一个基点:要求群体中的每一个体有同等机会(概率)被抽出,这样,哪一个体进入样本,纯由机会确定,不受人的主观上可能有的偏向所影响。同时,这一机制是我们可以建立一定的概率模型来刻画抽样,并把误差的计算纳入概率理论的轨道。由于这一点,鲍莱就有了可能利用在当时已有相当发展的概率工具(如我们在第一章中提及的中心极限定理和方差计算等),去探讨方法的严格理论根据,其要点是:由随机抽样所做出的估引,其精度只取决于样本量而与群体大小基本无关。这句话在后而还会有更明确的解释。这个结论保证了:即使群体中所含个体极多(这在人口调查中很常见),我们也不必要抽出很多的个体,因而与全面普查相比有很大的节省。
史称鲍莱以其“新的有力的研究工具”,宣告“全面普查并非必要”,而且“一个规模很小的样本已足够实现调查的目的”,这也是此前凯尔大力鼓吹的主张.但凯尔主要基于自己的经验和勇气,而鲍莱则是基于可信的理论,故其效果优于凯尔。在那以后20年中,鲍莱在身边集合了一批人,对英国许多城镇的社会和经济条件进行了随机抽样调查,特别是对“伦敦生活和劳工条件的新调查”这个项目做出了重大的贡献,他撰写的专著《抽样调查精度的度量》出版于1926年。国际统计学会在1924年指定了一个包括鲍莱在内的6位学者组成的委员会,以研究“统计学中代表性方法的应用”∞。该委员会的报告于1926年提交在罗马举行的国际统计学会大会,大会对抽样方法做了明确的肯定,同时指出,代表性抽样方法有“随机抽样”和“目的性抽样”两种。后者的意思类似凯尔的代表性抽样,但强调在保证样本代表性的前提下.根据抽样调查的目的去选择样本。大会决议重申了以前的主张:每一项抽样调查研究,都应附有对所用抽样方法的仔细陈述——没有这样的陈述,研究的结论的可靠性和精度就无从评估。
在这次大会上.抽样调查方法的科学性没有再引起争议,说明经过几十年的努力,它已被专家和公众所接受,当然它并没有完全取代全面普查法。应当指出,并不是说在一切情况下都应当用抽样调查取代全面调查,这要根据实际情况决定,二者也可以互相印证。例如.我国在两次人口普查中间作一次1%的人口抽查,美国在两次人口普查中间,还通过经常性的抽样调查逐月提供有关人口、劳动就业和失业情况的基础数据。除鲍莱外,对随机抽样思想的确立做出过重要贡献的,还有英国的费歇尔爵士。前面在讨论吸烟与肺癌的关联问题时曾提到他。费歇尔自1919年起,在英国一个农业试验站工作了十余年,期间他进行了大量的田间试验。例①此处“代表性方法”是与“全面普查方法”相对而言的,不限于原来凯尔的那种代表性抽样,也包括随机抽样在内。“代表”这小字眼在此可以理解为“样本”。如,比较两个种子品种A、B共有16小块(大小、形状一样的)试验地。费歇尔提出用随机的方法把16块中的8块分给品种A,另8块分给B,这种方法可用于其他试验,如工业试验中不同条件的随机分配。
现在,抽样方法已在世界多数国家得到经常的应用。联和国于1947年在其“统计司”中建立了一个抽样分委员会,发布过一些指导性文件,对抽样调查方法在全球的推广应用起了很大的作用。
关于我国的情况,“文革”以前只有一零星的应用,总体上讲开展很不够。当时,一定程度上直到现在,统计学界在对随机抽样的看法上还存在较大分歧,这个及其他原因阻碍了抽样方法在我国的应用。近十年来情况有了较大的改善。1994年国务院批转同意实 的我国调查方法改革的目标模式:建立以必要的周期性普查为基础,以经常性的抽样调查为主体,同时辅之以重点调查、科学推算等多种方法综合运用的统计调查体系。在这里,抽样调查的重要地位得到了确认。这期间也进行了一 全国性的、较大规模的抽样调查,有的在媒体中广加报导,如5岁以下儿童死亡情况的抽样调查、全国粮食受 污染情况的抽样调查、妇女社会地位的抽样调查、人口变动情况的抽样调查、人体尺寸测量抽样调查等。 |