概念01 - 什么是心理统计学?

心理统计学习指南 | 当前连载中cicada2023-8-8 16:57

认识一个学科最简单直接的方法就是看定义。不同作者写出来的定义不会字字相同,但核心肯定没差。不过,相比定义的具体内容,语言表达的问题可能更大。

比如下面这个概念:

心理与教育统计学是专门研究如何运用统计学原理和方法,搜集、整理、分析心理与教育科学研究中获得的随机性数据资料,并根据这些数据资料传递的信息,进行科学推论找出心理与教育活动规律的学科。

--《现代心理与教育统计学》(第四版),张厚粲,北京师范大学出版社

这个定义写得滴水不漏,但对眼睛很不友好,也不利于从中获得重要信息。所以,把定义仔仔细细地拆一下是有必要的:

心理与教育统计学是专门研究如何运用统计学原理和方法

搜集、整理、分析心理与教育科学研究中获得的随机性数据资料,并根据这些数据资料传递的信息

进行科学推论找出心理与教育活动规律的学科。

重要信息如下:

1⃣️统计学原理和方法;

2⃣️搜集、整理、分析、推论随机性数据,3⃣️从数据中获得信息;

4⃣️从信息中获得心理规律。

也就是:1⃣️获得数据→2⃣️整理数据→3⃣️分析数据→4⃣️得到结论。

其中,统计学原理和方法是统计的底层逻辑

搜集、整理、分析、推论随机性数据的信息是统计的具体步骤

获得心理规律(也是心理学的研究对象)是统计的最终目的

而当你把「心理规律」替换成「数据规律」,就能适配统计学的所有分支学科了。换句话说,心理统计和其他应用统计的基本过程都是一样的,这个过程对所有数据统计都适配。

统计教材里的任何一个知识,虽然体感很遥远,但都不是白学的,有疑问的时候就回顾一下这个概念里描述的过程吧,你学的知识都能在上述过程中找到位置

定义或概念总是认识新知识的第一步,但也往往成为阻碍:一个概括了方方面面的定义一定是不具体的,不具体的东西就不好理解,不好理解的东西也难以记住。定义大部分对你而言,是不进大脑的知识。

正确使用定义的方法不是先背过它,而是把它当作一个灯塔或说明书,在学习后面的具体知识的时候,每当不理解「学这个到底干啥用的」的时候,就回过头来看看这个知识的定义,这时候,抽象的知识才有了用武之地。

下面展开说说心理统计这个概念描述的过程。

Step1 - 获得数据

获得数据的过程属于实验心理学、心理测量学和心理学研究方法等学科的内容,该过程所需的相关的技能不从统计学中获得。

再进一步地,实验心理学专注于设计实验流程、选用实验范式和操控实验变量等过程;心理测量学专注于问卷和量表等标准化工具,心理学研究方法专注于更多样的研究方法。

如何获得研究数据,应根据某个研究的具体情况具体分析。可以通过查阅相关文献了解其他研究者常用研究方法,也可以根据自己的研究问题开创新的研究范式。

不论过程如何,上述过程的最终目的是获取研究数据,然后统计学才正式进入科研流程,即数据处理阶段,毕竟统计的对象是数据,没有数据到手,统计就无法开始。

但这不意味着实验设计阶段完全不需要考虑统计学,比如,实验设计题最后都要写统计方法。这种「未雨绸缪」为的是避免发生意外,导致收集到的数据作废,无法顺利进入到数据统计阶段。收集数据可是很辛苦的,又花时间又花钱😭,是你最不想重来的步骤了。

Step2 - 数据整理

数据整理是数据统计前的工作,可以理解为在正式的数据处理过程前的一切准备阶段,因为收集到的原始数据可能存在各种各样的问题,以至于无法立刻进行统计分析。

这就类似于要在做饭前先把菜洗净、切好,才能方便下锅炒。

大概的过程有数据编码、清洗、转换和可视化等这几个过程,课本上详细讲的是可视化的阶段,也就是作图制表。其他过程的定义见这篇短文

这里我们列举几个比较常见的过程,帮助大家理解数据整理具体都在做什么。

  1. 由于现在数据统计都用统计软件(如,SPSS、SAS、EXCEL、R、Python、MATLAB等)完成,如果你是使用纸质问卷收集了量表数据,第一步是需要将纸质问卷誊到EXCEL或SPSS文件中;如果是使用程序(比如e-prime)收集实验数据,需要从程序的导出文档中找到你真正需要的数据。

  2. 数据有缺失值,且整体的数据量并不大,需要使用正确的方法填补缺失值。

  3. 数据中有明显的错误,比如收集到的量表数据,某被试所有的题目都选了同一个选项,可以推测被试没有认真作答,那该份数据可能就需要删除。判定是否为错误、无效数据,也有对应的各类方法,比如这篇文献中整理的。

  4. 为了后续操作方便,还需要对变量进行编码或打标签,比如被试编号,作为替代姓名的唯一ID;组别、性别等类别变量用阿拉伯数字编码,比如如0代表男,1代表女;0代表对照组,1代表实验组等。

  5. 数据转换,当原始数据需要进行一些运算才能成为最终的变量时,就需要对变量进行二次计算。比如,正确率=正确次数/总次数;量表某维度总分=该维度下各个题目的数值之和等等。一般会在原始数据之后,额外新建几个计算变量,并在之后的数据中只使用这些计算好的新变量,能够简化操作的过程。

数据整理的工作,可能真的只是在整理数据,这个过程可能完全不涉及统计学原理和方法。

但你需要知道,如果没有对数据的整理,后面的统计过程、操作甚至结果都可能是不正确的。看似在数据收集阶段,统计学原理没有太大的存在感,但其实每个过程有都是为了后续的统计服务的。

拓展阅读:

调查问卷如何整理数据?

统计数据整理有哪些基本步骤

问卷调查中被试不认真作答的控制与识别

Step3 - 分析数据

分析数据是根据研究目的进行数据统计,到这一步,数据统计的实感才开始出现。这个过程可能花不了多少时间,甚至比整理的时间都短;也可能遥遥无期。

包括但不限于课本上学到的:描述性统计中的求数据的平均数和标准差、中位数,数据分布是否正态等;推论统计中的 t 检验、方差分析、卡方检验等。

同时,有点「可怕」的事实是:有很大的可能,在硕士阶段(甚至本科生的毕业论文期间),你需要再学习很多高级统计的方法,比如,逻辑回归、探索性因素分析、聚类分析、结构方程模型等,并且它们将成为你的日常。

使用哪种统计方法,仍然是实验设计和研究问题决定的。但有时候你可能面临着一堆数据,知道自己的研究问题和目标,但不确定用哪种统计方法来实现。

这个问题可以化简为一句话:如何选择正确的统计检验方法。

在计算题和考试中,这个问题确实简单不少,因为备选的方案不多,只需要对每个统计方法的适用条件都理解,这个决策不难做。下图是一个基本的分析流程图(来源:Scribbr,内容是我翻译的),在基础统计阶段是够用了。

困难的是真正的科研工作中,可选的方法不明确,这时候可能只能通过学习更多统计方法和阅读研究领域的文献来解决问题了。

拓展阅读

刘红云 -《高级心理统计》

Choosing the Right Statistical Test | Types & Examples

Step4 - 得到结论

得到结论是分析数据的最后一步,数据分析完了,结论基本也就得出来了。

这两个过程的界限并没有那么清晰。比如,某个心理活动是否存在性别、年龄差异,在看到统计结果的那一刻,其实结论就出来了。

从跟你最直接相关的角度来说,得到的结论成了你在心理学其他教科书上要背的东西。

但悲伤的是,得结论的过程可能没有这么顺利,有时候你用某种统计方法得到了一个不太想要的结论,最常见的就是没有统计显著性。

虽然就这个统计过程来说,最后一步已经完成了,但你的统计分析还远远没有结束,因为得到(你想要的)结论是你的目的。你可能需要反复进行 step 3 和 step 4 的过程,甚至,回到 step 2,甚至,回到 step 1。

这个过程比较难评,真实的科研过程中,确实会存在数据驱动,也确实会存在你的导师一直要求你更换不同的统计方法,只是为了验证某个假设是否成立,不过这不是我们现在要忧虑的事情。将来的痛苦自有将来的解法,但现在,我先送出一个诚挚的祝福:不管你是否有过这样的经历,祝你之后的每一次数据处理都顺顺利利,想要的都显著。

本篇结语

至此,关于「心理统计学是什么」以及「数据统计究竟在做什么」,你应该已经心里有数了。

这一篇还没涉及到考试的重点,但仍然花了比较大的篇幅来讲,是因为我觉得,对一个东西了解得越具体,就越有助于我们克服对它的恐惧,也有利于后面知识体系的架构。在大家普遍都对心理统计怀有一种恐惧情绪的现状下,这一篇应该能帮助你减轻一些恐惧感。

知道是什么很重要,而知道为什么学它们更重要,前者帮助你走得踏实,后者帮助你走得更远。