为什么要区分数据类型?
我发表一条暴论:任何试图区分事物间特点的行为,并不真的只是想知道差异如何,最终的目的应当是理解差异之后,找到应对差异的方法。
这就像做 MBTI 一样。知道自己是什么样的人格类型只是第一步,你希望的是能利用这个类型解释自己日常的行为习惯,理性且善意地看待自己做得不够好或一直尝试都没能成功的事情,认识和你更合拍的人,或者让自己向着某个方向改变。
换句话说,认识自己是为了对自己因材施教,如果不能进入到这个层面,区分差异就变成了贴标签,不会对我们有任何帮助。
区分数据类型也是一样。
不同的数据类型就像不同的人格特质,它们有着不同的特点和数学运算特征,也要用不一样的方法和公式来运算。所以,诸多统计方法是针对不同数据类型发展而来,区分数据类型的意义是选择最恰当的统计方法。
课本只用了不长的篇幅来介绍数据类型,且只是一些文字内容,这导致它看起来不像是个重点。
但从你进入到「相关关系」这一章开始,一下子出现的各种统计方法目不暇接,看得头大,越往后翻出现的公式就越多。
题目往往考你某数据要用什么相关或统计方法,如果每次都要仔细考虑很久,翻很多次数也搞不清它们的区别,那么可能是你没有从区分数据类型的角度来记忆。
数据类型的学习上有哪些坑?
如果你已经深刻知晓了,区分数据类型对于接下来的学习是非常重要的,那你就完成了50%的任务,剩下的工作就是记住不同数据类型的名字,这部分不难,因为总共数据类型也没几种,少则2种,多则4种罢了。我们放在下一 part 来讲。
我想跟你分享几个不是很重要,但不知道就会让学习很难受的地方。
1、数据和变量的混用。
学了一段时间之后,这种混用可能会下意识地出现:脑子里想的是等级数据,说出来却是等级变量。比如,等级数据和等级变量。
混用其实不影响沟通、理解和处理数据,但初学者会觉得很难受。尤其是上一道题写的还是等级数据,下一道题就变成了等级变量,可能你马上要翻翻书,确认一下到底是数据还是变量。
没关系的,是变量还是数据都可以,重点在前面,是等级还是称名,是有序还是无序。
2、翻译导致的学习困难。
很多看起来不太一样的文字描述,可能只是翻译的原因。
数据类型没有那么多,但你看几本课本,可能会发现作者用了完全不一样的中文描述。
是翻译的锅,而且这种不适感会存在于整个统计学的学习中,你会持续看到很多难以从字面意义和过去的经验中理解的中文,比如,正态分布、置信区间、极大似然估计等等,直到你把这些词刻在大脑里达到随取随用的程度。
知道这一点会让脑子里混乱的系统清晰一些,当你看到出题或课本又用了新的名字,不是你学漏了,冷静下来回想你现在脑子里的中文,再看看试卷上的,都是马甲和小号罢了。
所以,区分数据类型也是记住核心差异就好。应用统计学都是实用学科,对文字游戏不感兴趣,我们也要勇于透过汉字看本质。
(之后有新的坑会再来补充)
有哪些数据类型?
(点击展开大图)
1.区分标准
个人感觉,课本上讲的区分标准本身就很难理解,如测量尺度、测量水平,仍然是「怎么理解都可以,但怎么都理解不了的中文」,所以我补充了比较好理解的区分标准。
关于区分标准没必要非常准确地背诵某位作者的原文,理解差异才是最重要的。更何况数据类型之间的差异已经明显到二分了,也就是非此即彼的程度,背诵区分标准的意义也不大啦。
2.绝对零点
这个词自带的理科气质有点吓人。所谓绝对零点,就是量表上标着0的地方,表示所要测量的属性是无。
「无」是在自然界的层次讨论的,不是尺子不够长或零点不够低的层次。所以,在绝对零之下不存在任何数值,负值是取不到的,也是无意义的。
有绝对零点的是比率数据;无绝对零点的是等距数据。
身高取0时,身高属性消失了,所以身高是比率数据;
摄氏温度取0时,仍然存在温度(0摄氏度),温度没有消失,所以温度是等距数据。
智力量表测量的是人的智力高低,智力量表得分为0时,人仍然存在智力,只不过相对得分高的人,智力水平较低
对于不存在绝对零点的等距数据,它的零点是「相对零点」,也就是人为规定的零点。
比如,身高的绝对零点是地面(0cm)。但你也可以规定,零点为距离水平面 110cm 的地方。在这个相对零点下,身高仍然可以测量,只是每个人的身高都是(绝对零点下的身高-110)cm。
使用相对零点时,两个数值间的差异是有意义的,或者说仍然是正确的。
如我的身高170cm,妹妹的身高160cm。在110cm的人为零点下,我和妹妹的身高差还是10cm,不论人为零点变成130cm还是-130cm,差值永远不变。所以等距数据可以做加减法。
但我和妹妹身高的倍数无意义。
原本我的身高是妹妹的1.0625倍,但110cm零点下,我的身高是妹妹的1.2倍,倍数会随着人为零点的改变而改变。
所以,等距数据不存在xx是xx的几倍这样的描述,比如「三点是一点的3倍」,「20度是10度的两倍」,都是不对的。
但这不意味着,温度完全不能用倍数描述。只不过不是摄氏度和华氏度单位下,温度都是等距数据罢了。这涉及到了温度的物理定义,感兴趣的话可以读:为什么不能说 20℃ 是 10℃ 的两倍?
(关于当你在统计上想刨根问底的时候,有时候会跑到了物理和数学的领地里这件事。)
总结一下。对于客观量,等距尺度下倍数不适用,可以理解为违背了客观量的定义,毕竟客观量的定义已经暗含了绝对零点是什么,如果你要改变绝对零点,那倍数自然也不成立了。
而对于大部分心理测量工具得到的心理量,如自尊、生活满意度、焦虑程度等,我们无法知道这些量的零点在哪里,它们不存在于物理世界中。因此我们只能设计出相对零点,为的是能够研究它们。