本篇写作逻辑:
总体和样本,样本和抽样为何重要;总体和样本的表格知识对比,总体和样本的关系整理。
总体
统计学中的总体指的是「研究对象的全部」,英文是"population",也是人口的意思。这个词一念出来,就有一种人山人海的画面感。
总体是研究问题绑定的,不能脱离研究问题来讲这个概念。
总体可以是人,可以不是人,也可以是看不见摸不到的东西。比如心理学的研究对象是人的心理现象和过程,看似研究的是人,其实研究的也不是人。
举几个例子:
某工厂生产的一批小灯泡是否符合出厂标准,总体就是该厂该批次的所有小灯泡;
想知道某社区中老年人的生活幸福感,总体就是该社区的全部老年人的生活幸福感;
某睡眠干预疗法是否能改善孕产期妇女的失眠问题,总体就是地球上全部的孕产期妇女在接受干预后的失眠状况。
总体可以很大,无法穷尽;也可以不大。还是那句话:研究问题说了算。
比如,当该工厂这一批生产的小灯泡有且仅有10个,或者该社区的老年人只有25位。
虽说把10个小灯泡和25为老人作为总体,从研究问题上来说是成立的,但这不代表这个研究是有意义的,因为科研界对研究问题还有一些评价标准,你的导师对你也有要求。
所以概括来说,心理学研究中的总体,一般来说,都是全人类。但你也可以规定是部分人类,比如青少年、亚洲人等等。但即便如此,总体也很大,几乎都是不能穷尽的。
样本和抽样
样本是总体的一个组成部分,通过抽样所得,是抽样的结果。在接下来的学习中,我们要经常和样本这个概念打交道,是统计学和科研实践中真实的研究对象。
在我们学习样本究竟有什么特征,如何利用样本之前,还有一个问题需要解决:
为什么要研究样本呢?研究总体不行吗?
和这两个问题等同的问题是:为什么有抽样调查?为什么我们需要抽样(的过程)?
这部分的内容在课本的第14章,离总体和样本实在是有点远。但我觉得理解抽样是理解样本和总体的重要部分,如果没有抽样,就没有样本。所以我把内容提到前面来了。
为什么要抽样?
前文说到,总体可以大,也可以小。当总体不大的时候,抽样的优势确实不太明显。
比如一家20人的小公司的员工满意度,煮了10个鸡蛋熟没熟,晒了一阳台的衣服干没干。这些总体的体量不大,即便你逐个判断也完全做得来(不过即便如此,你应该也只会挑一个鸡蛋来判断一下这一锅是不是都熟了)。
但实际情况中,总体无法全部获得的情况远远多于总体可获得的情况。
其实通过上文你大概应该也感受到了,心理学的研究对象动则数亿,这个体量是任何研究都可望不可及的。实际科研中,一项能包含几万人的研究已经是诸多研究者数年才能完成的丰功伟绩了。
面对这些现实,已经不是你愿意不愿意抽样,而是你根本没能力研究总体,别无选择。也由此引出了课本上所讲的,抽样的两个好处:节省人力降低费用,节省时间提高时效性。
而另一方面:统计学的原理也允许你不研究总体。统计学的这层保障很重要,失去了保障,抽样调查只能是设想,无法成为实践。
统计学保障的东西是:总体中得到的样本和总体存在某种稳定的数量关系,只需要满足几个抽样的要求,就能使抽样得到的结论可以在允许的范围内推广到总体之上。这些统计学原理即后面推论统计的核心。
至此,我们收获了一种省时省力,且可以得到不错的结论的方法,确实没必要再研究总体了。
当然啦,以上过程还有一个很重要的前提条件,那就是取样最好能反映总体的情况。
当你想研究北方人的汤圆口味偏好,却恰好把问卷发给了那群偏偏爱吃肉汤圆的北方人,这就属于抽样抽得不好。
但绝大部分情况下,只要你遵守一些抽样的规矩,别太剑走偏锋,出现这种情况的概率也不会太大。
这些规矩的基本原则是随机化原则。随机化指的是总体中的每个个体,有均等的概率被抽取组成样本,这样抽样的结果可以最大概率地保证代表性。实际操作中,随机化会通过诸如简单随机抽样、等距抽样、分层随机抽样等方式来落实,这个之后我们放在抽样方法单独讲。
不过,多说一句。不论是上述哪种方法,真实的科研过程其实很难、或根本不能,保证随机化抽样原则。也不是研究者故意不做好随机化,是实验被试真的不好找,大部分心理学实验的被试都是全世界的在校大学生,这也给很多研究结论的推广性带来了很大的挑战。
至此,你应该已经知道了,总体,样本和抽样背后的全部逻辑。不知道你有没有体会到,过程中的每一步都很现实,也很合逻辑,应用统计学就是一个很现实的、遇到问题解决问题的学科。
总体和样本的知识整理
仍然用表格来整理总体和样本的知识。内容不难,像记生单词一样记住就好。
我觉得学统计很重要的一点是,不要把它当成数学来学,而是当成外语——背单词,学语法,使用语言的过程,等同于学统计概念、学统计原理和做实际数据处理的过程。
(点击查看大图)
二者的关系的文字版
样本是总体抽样所得。抽样一定存在抽样误差,也就是总体总是不能被某样本代表。
一个研究的总体,可以是另一个研究的样本。
样本是某研究的实际对象,也是数据的实际来源。描述统计就是对样本数据的描述过程。
当想用样本的结果用来推论总体,就来到了推论统计的部分。
同抽样误差,是推论,就不能100%正确,推论必然存在错误。但错误只要别太大,就可以接受,错误就是统计显著性。