2023-9-21 17:51
基石05 - 正态分布
正态分布可以称得上是所有概率分布中的绝对核心,不仅是因为它最常见、最常用,对我们来说,它足够规矩和简单,借学习正态分布,我们也可以建构起理解其他概率分布的思维框架。本章主要内容:- 认识正态分布- 识图:正态曲线图及各类数量关系- 对比:标准化和标准正态分布Let's go!名字和地位正态分布(normal distribution)理解的第一个难点,是它的名字,这个中文中不存在的词,一上来就困惑住了很多人。不过作为心理学学生,我反而对你理解这个词的能力有信心。毕竟我们已经在《变态心理学》的“变态”一词上,努力纠正了我们对与变态的原本理解并建构起了“变态”是 “abnormal,非正常”的意思,那么,对于正态分布的 normal,我们也可以有类似的学习迁移——是正常的意思(但这两个词的翻译有一种异曲同工之奇怪。)正常,意味着常见。正态分布是一种自然界中非常常见的分布,数学家高斯在正态分布中做出了突出贡献,因此正态分布也叫高斯分布。高斯做了一个高斯钉板,直观地展示了正态分布的样子,可以在这里看看。如果你疑惑为什么正态分布如此常见,在这个知乎问题中有进行讨论。简单来说,自然界中的很多现象都是由多个因素共同影响的,这些因素可以来自物理、化学、生物、社会等多个领域,且这些因素之间相互独立。当许多相对独立的随机因素共同影响一个事件时,这些因素的总和或平均值会趋向于正态分布。这个规律是列维-林德伯格中心极限定理发现的。应该不会有人考这个点的,简单增加一点可以但没用的小知识。正态分布曲线图日常我们研究和使用正态分布,都少不了正态分布曲线,你应该已经很熟悉了。这张图看起来很朴实,但内含非常多信息点,也是正态分布的考点,而且大部分的计算题都是出自这张图。做计算题的日常就是在纸上画满正态曲线。|横轴横轴其实就是个数轴,数值从左至右增大。世界上所有的正态分布都在同一个数轴上。当你描述某个变量的数据分布时,正态分布的横轴就是具体的变量取值,比如身高的厘米数。但横轴也可以不表示具体变量取值,比如针对标准正态分布,图的横轴指的是 z 分数(z-score),也叫标准分数。它最早出现在课本的第四章,但其实你应该先学正态分布,再理解z分数比较好。z 分数和原始分数可以用公式来转换,这也是计算题的一大考点,下面你会反复见到这个公式。注意,这条曲线的末尾虽然看起来和 x 轴很近,但它和 x 轴永远无法相交,只能无限延伸、逼近 x 轴。|纵轴按照常理,图的纵轴一般都是所描述的对象,正态分布作为一种概率分布,那纵轴应当就是概率了。事实上由于一些数学意义的原因,正态分布的纵轴是「概率密度」,没什么实际意义,我们更关心的概率,实际上是这条曲线和 x 轴所围成的面积。我们知道,一个随机事件的概率最大不会超过100%,也就是 1,所以这条曲线和 x 轴相围成的面积或概率总和就是 1,对称轴左右各 0.5。|正态曲线这条曲线可以简单叫做「正态曲线」,其实也是一个函数:正态密度函数。不同的概率分布有各自的概率密度函数(Probability Density Function,PDF)。这是正态分布的概率密度函数。不过这个名词不重要,你也完全不必关心这个函数是如何推导来的,对上面这一坨公式可以高傲地一眼都不看。你只需要记住两个参数:μ 和 σ,上面这一坨公式里重要的就是这俩参数,是一条正态曲线的唯二重要信息。有了这两个参数,我们就可以直接画出一条曲线了,所有计算题解题也都是依赖这两个参数。1. 细说 μ 和 σ结合下图:μ正态分布的均值,μ 在横轴上处于正态曲线横轴的中点。μ 的垂线也是这条正态分布曲线的对称轴,在 μ 点上,正态曲线位于整个曲线的最高点,取到最大值(y 最大值是 0.3989)。这条对称轴将一个正态分布分成左右相等的两部分。σ正态分布的标准差(Standard Deviation,SD),特别记一下这个缩写,后面我们还会学一个跟标准差很像的东西。标准差是正态曲线的度量单位,即「一个标准的差异单位」。正态分布的图从对称轴中心开始,向两边延展,在两个「肩膀靠下」的位置,曲线从向内拐,变成向外拐,这两个方向变化的地方,也就是两个拐点处,各自是 1 个标准差的距离,写作 ±1σ。σ 的正负号表明相对于对称轴的左右位置,负号 σ 在对称轴左侧,正号 σ 在对称轴右侧。同时,μ 和 σ 引出了第三个数:z 分数z 分数的意思是:正态分布中的某个数值,偏离均值 μ 有几个标准差单位,偏离几个,z 分数就是几。比如拐点那个位置对应的 x,距离 μ 有 1 个 σ,z 分数就是 1。将 μ、σ 和 z 结合,就组成了正态分布语境中的尺子:均值 μ 是度量的标准,也是尺子的原点,所有的度量都是相对于 μ 的差异,而不是相对于其他零点的差异。标准差 σ 是度量的刻度,z 是刻度上的数字。我们不再使用数据原本的单位,而是统一用 z 个 σ (几个标准差)来度量正态分布中某个值与 μ 的相对距离。这是z值的计算公式,先眼熟一下,下面还会再见面的。2. 正态分布的形状和位置对于不同的正态分布,μ 和 σ 影响了曲线在数轴上的左右位置和高矮胖瘦形状。下图是不同 μ,不同 σ 的四个正态分布的相对差异。可以看到:μ 越小,在数轴越偏左;μ 越大,在数轴越偏右。σ 越小,形状越高瘦;σ 越大,形状越矮胖(无端想到了体脂率...)。由于曲线下的总面积都是固定的 1 ,所以只有高瘦和矮胖两种搭配。正态分布可以进行加减乘除四则运算,运算后仍然是正态分布。加减法影响了 μ,让正态分布在数轴上左右平移。乘除法影响了 σ,让正态分布在高度宽度上上下拉伸。所有的正态分布其实都是在这个数轴上左右移动,上下拉伸得到的。3. 正态分布上的概率到目前为止,我们已经知道了 4 个数:对于某正态分布 N~(μ,σ),该正态分布的任意一点(x,y),都可以用 z 分数度量其距离均值的距离。哦对了,别害怕,N~(μ,σ)是正态分布的数学写法,可以一下子省掉「这个正态分布的均值为标准差为」等 14 个汉字,不是什么吓人的东西。至此,还差最后一点,也是最重要的一点:概率 p。作为概率分布,概率 p 肯定是最重要的东西。根据概率密度函数,对任意正态分布上的任何一点,都可以计算对应的面积,即概率。但 21 世纪的我们不必亲自代公式,只需要背过几组数值就可以了。如图是用概率密度函数求出来的结果,我们常用的几组数据是μ±1σ 围起来的面积占到总面积的 68.26%;~z=1μ±1.96σ 围起来的面积占到总面积的 95%;~z=1.96μ±2σ 围起来的面积占到总面积的 95.45%;~z=2μ±2.58σ 围起来的面积占到总面积的 99%;~z=2.58μ±3σ 围起来的面积占到总面积的 99.73%。~z=3你应该发现了,在这个对应关系里,μ 和 σ 的具体数值不重要,唯一影响概率的只有 z 分数,也就是某个数值距离均值的远近。所以想要知道 p 有多大,必须先知道 z 是多大,也就是用这个公式:而对于特殊点以外的其他 z 值,可以通过查 z 值表找到,z 值表的 z 精确到小数点后两位,你可以查到如 z 为 0.02 时对应的 p 是多少。查表时还有点小弯弯绕。在纵轴那里我们讲到,正态分布的概率是曲线和对称轴围成的面积,而要想「围」成一个面积,你需要四条边来构成一个封闭的图形。比如下图,你应该能很轻松地找到 34.1% 分别由哪四条边(黄色)包围。也可以是三条边(黄色),组成几乎封闭的图形,因为正态曲线和 x 轴永远无法真的相交。在查表的时候,要看清题目给的是左边部分的概率,还是右边部分的概率。同时,我们还知道总面积/概率是 1,两半各为 0.5,那么已知一半,另一半的概率就可以求出来。到目前为止,正态分布的最后一块拼图拼完了:均值 μ,标准差 σ,某值 x,z 分数 和概率 p。好了,可以出计算题了。计算题的核心也很简单,就是已知几个,求剩下那一个,大部分是求概率 p 有多大的,可以直接化简为「求阴影部分的面积」。用到的公式只有这个:只要把这五个数的关系扒拉清楚了,题目难度不超过三年级。标准化和标准正态分布|为什么需要标准化?上面的内容主要针对某个具体的正态分布,如果有一天我们要对比几个正态分布呢?比如:数学成绩的分布为均值73,标准差6;英语成绩的分布为均值79,标准差8小明数学成绩和英语成绩均为80分,请问小明哪一科考得更好一点?在这个问题里,小明的两科成绩虽然分数一样,但两科卷子都不一样,题目难度也不一样,怎样知道哪一科考得更好一点呢?(多嘴一下:这里的“好”,其实意思是“相对于其他同学,排名更靠前”,是一种相对意义的好。你可以很烂,但只要别人比你更烂,那你也可以是不错的。)这个情境就涉及到了多个正态分布的比较。多个正态分布的比较,依赖于分布或数据的「标准化」——将正态分布转化成标准正态分布的过程。|标准正态分布标准正态分布可以理解为是世界上所有正态分布的本源,是所有分布的原始内核,所有的正态分布也可以通过对标准正态分布加以改变得来。所以这里的「标准」,也可以理解为模板、标杆的意思。标准正态分布被定义为:均值 μ=0, 标准差 σ =1 的正态分布,写作 N~(0,1)。下图中的绿色曲线,就是一个标准正态分布。|标准化过程如何进行标准化,就是如何将一个普通正态分布,变为标准正态分布的过程。前面我们讲过,正态分布可以进行加减乘除四则运算,加减法影响了μ,让正态分布在数轴上左右平移。乘除法影响了σ,让正态分布在高度宽度上上下拉伸。所有的正态分布其实都是在这个数轴上左右移动,上下拉伸得到的。对于我们已有的任意一个正态分布 N~(μ,σ),想变成 N~(0,1),只需要两步。第一,把现在的对称轴 μ,从 μ 移动到 0,即向左移动 μ 个单位;第二,把现在的标准差 σ,从 σ 压缩到 1,即向中间挤压 σ 个单位。恭喜你,公式出来了:使用这个公式,将所有的原始数据都移动变化到标准正态分布上,就完成了标准化。标准化后,原始数据不见了,横轴只剩下一堆 z 分数。这样,多个正态分布都被拉齐在一个标准尺度上,只需要比较 z 分数大小,就能一目了然地知道某个数值在其分布中所处的位置。回到这个问题:数学成绩的分布为均值73,标准差6;英语成绩的分布为均值79,标准差8小明数学成绩和英语成绩均为80分,请问小明哪一科考得更好一点?数学成绩的 z 分数为(80-73)/6=1.5;英语成绩的 z 分数为(80-79)/8=0.125很显然,数学成绩好一点,距离均值有 1.5 个标准差,离均值距离更远。|标准化和正态化最后,对于非正态分布的数据,也可以用同样的方式进行标准化,但标准化无法改变数据的原始分布,无法将非正态分布的数据转换为正态分布,标准化后分布仍然保持原来的分布形态。如果想把非正态的数据转换为正态,该过程叫做「正态化」,把非正态数据变为正态分布有以下常用方法:对原始值取对数,开平方根,取倒数,开平方,取指数等等,课本上提到的 T 分数也是正态化的一种方式。但,不是一定要正态分布才行的,还是依照实际问题需求来。毕竟对于非正态分布,我们也有很多数据处理方法。总结至此,正态分布的全部基础知识都在这里了。结束之前,总结一下:1. 正态分布的知识点感觉很碎,但理解难度不大,多结合图形来记忆,有很多性质结合图形其实没有太难的记忆负担。2. 统计课本上把正态分布和标准分数分两个地方讲,可能会造成误解,建议先学正态分布(课本第六章),再学标准分数(课本第四章),明明就是一家人,不要拆开嘛。3. 正态分布里的计算题固然重要,但还是别把重心放在那些加减法计算上。好好理解μ、σ、x、z 和 p 之间的相互关系更重要,接下来的抽样分布上难度,且在 σ 上大舞特舞,现在一定好好理解一下 σ 和 z 分数的意思,get ready!🌟 有没讲到的会再随时补更