今次我地讲一下关于数学方面嘅话题。
我地都知道,数学家解决问题的方式往往比较抽象。会通过好多数学定义、数学模型之类嘅野,将现实世界同埋数学世界打通。
就好似“概率”哩个概念,佢嘅数学定义系:事件发生的机会可以用一个数黎表示。
而今次我地主要介绍嘅,系一个概率分布模型!
关于概率分布模型有十几个,咁最重要嘅会系边个呢?
你去问任何一个概率论课嘅老师,得到的答案只有一个——
大家请记住哩个名----正态分布。
正态分布,我觉得系数学家送给世人最有用的礼物。
要讲正态分布,我地需要从天文学史上的一桩公案讲起:
1801年初,一个神秘的天体出现在天文学家的视野当中,几个星期之后又神秘消失。它是什么?又去了哪儿?没人知道。
正在所有人都束手无策个阵,“数学王子”高斯站了出来,他用一支笔计算出了这个天体的运行轨道。果然,在高斯指定的位置,大家又重新发现了它。这就是人类发现的第一颗矮行星——谷神星。
咁高斯是怎么知道这颗天体的运行轨道的呢?
因为他在计算的过程中使用了正态分布。你地话,系唔系好犀利咧?
而且从此以后,正态分布一炮而红,推动数学、统计学、物理学、工程学等众多领域的发展。
“正态分布”这个词,听上去挺复杂的,但它的英文表达就简单得多,叫normal distribution,直接翻译过来就是“正常的分布”“一般的分布”。
其它分布都是特殊的,例如仲有T分布、F分布等等,佢地都是直接由正态分布推导出来。而只有正态分布是一般的、正常的。从名字上,我们知道正态分布系一系列嘅根基,亦能感受到它的重要性。
作为数学史上数一数二的人物,高斯的伟大发现不计其数。甚至有人说,在高斯所在嘅时代,几乎所有伟大的数学成就都是高斯最先发现。所以,高斯并不觉得自己发现正态分布系好巴闭嘅事。而佢自己都讲过,如果以后逝世,墓志铭上,要刻佢生平嘅得意之作:正十七边形,完全没有提正态分布的事。
但后人不这么认为,德国为了纪念高斯,就在10马克的钞票上印上了高斯的头像,而在头像旁边的,就是正态分布嘅钟型曲线。
正态分布虽然地位好高,不过佢特别简单。
说起正态分布嘅曲线,各位肯定都见到过——佢系一条对称嘅曲线,中间很高,两边下降,就像一座山。
点开文稿,你地可以睇到一副简单嘅正态分布图。
咁这副图究竟是什么意思呢?
在正态分布的曲线图里:
横坐标x代表随机变量的取值范围,越往右,随机变量的值就越大。
纵坐标y,则代表概率的大小,底部嘅概率是0,越往上概率越大。
只要我地从曲线上随便找一点,确定它的横坐标、纵坐标,我们就知道了这个值出现的概率是多少。
因为这条曲线是左右对称的,所以中间的最高点,就代表平均值出现的概率最大,数据最多;而两边分别下降,就意味着越靠近平均值,数据越多;越远离平均值,数据就越少。
当然,我们不能停留在这种粗糙的描述上,要理解正态分布,必须了解它的三个数学性质。
性质一:均值就是期望。
正态分布曲线中间最高点的横坐标,不仅代表随机变量的平均值,而且还等于它的数学期望。这是经过数学证明的,你不用太纠结。在概率论中,正态分布的均值和期望就是一个意思,是一件事儿的两种表达。
换句话讲就系,在正态分布中,平均值就代表随机事件的价值。
为什么我们会用高考的平均成绩,衡量一所高中的教学质量?为什么我们会用平均收益率,衡量一家公司的好坏?原因很简单,高考成绩和公司的收益,是服从正态分布的。而在正态分布中,平均值就代表这个随机事件的价值。
但提醒你一下,在正态分布里,平均值才具有这样的意义。如果不是正态分布,均值可能就没啥意义了。比如说地震,谁也没听说过平均强度和平均损失这样的说法吧?
性质二:极端值比较少。
还记得正态分布的图吗?越靠近平均值,这条曲线越高,出现的概率越大;越远离平均值,这条曲线就越低,出现的概率就越小。
这就说明:正态分布的大多数数据都集中在平均值附近,极端值很少。
“极端值很少”这句话,有两层含义:一是极端值出现的概率很低,二是极端值对均值的影响很小。也因此,正态分布是非常稳定的。拿人的身高来说吧,它大体服从正态分布,所以即使姚明加入我们课程,我们的平均身高也不会有太大变化。
当然,如果不服从正态分布,均值往往就很不稳定。
性质三:标准差决定胖瘦。
有时候我地会发现,同样是正态分布图,有的曲线要矮胖一些,有的要高瘦一点,这是为什么呢?
其实就是因为标准差不同。我地高中都学过,标准差就是方差的平方根,可以用来描述随机变量的波动情况。
在正态分布中,标准差越大,数据的波动越剧烈,钟形曲线就越矮越胖;标准差越小,数据越集中,曲线就又高又瘦。
为什么刚才说正态分布简单?就是因为在正态分布中,平均值等于期望,决定这条曲线的最高点;方差决定胖瘦,决定曲线的弯曲度。简单两个数据,就确定了这条曲线的形状。你说简单不简单?
讲左咁多概念性嘅野,我地就讲一D日常生活当中,正态分布嘅应用。
当你打开电脑时,某产品会告诉你,“你的开机时间13秒,打败了全国97%的用户”。
“13秒”你可能没概念,但“打败左全国97%的用户”你马上就知道快还是慢。
不过你有没有想过,这个97%是怎么来呢?
是要把全国每台电脑的开机时间都收集起来,这太复杂了。其实他们只是构建了一个正态分布的模型而已。
我们知道,大部分电脑的开机速度都差不多,只有小部分快一点或慢一点,可以认为它服从正态分布。而刚才说了,正态分布很简单,只要均值和标准差两个数据就能完全确定。
所以,只要随机抽取一部分用户的开机数据,
计算出均值和标准差,就可以确定一条正态分布曲线。
而在正态分布中,一个标准差覆盖68.26%的数据,两个标准差覆盖95.44%的数据……都是一一对应、完全确定的。
有了这层关系,当你嘅电脑开机个阵,它只需要比较你的开机时间和均值的差距,就可以知道你距离均值有多少个标准差,也就知道你的排名了。
正态分布,为我们提供了一个估算个体在整体中处于乜水平的便捷方法。像智商、身高、考试成绩,只要服从正态分布,我们都可以通过哩个方法,快速得到答案。
一个正态分布可以分析,咁唔同的正态分布曲线可唔可以比较呢?
也能的。
第一种情况,只有均值不同的话,能比较好坏。
比如两条生产线制造的产品,标准差一致,怎么比较呢?当然是平均合格率越高,品控做得越好。前面说了,正态分布里均值等于期望,就代表长期价值。
第二种情况,只有标准差不同,能比较波动。
最典型的就是男女智商了。两条曲线在均值上相似,但是男性的智商曲线要矮胖一些,女性的高瘦一点。换句话说,均值相同,标准差不同。这说明什么呢?
点开文稿,我地可以睇下哩幅图:
前面说过,标准差代表波动程度,代表极端数据出现的概率。
所以讲明,从整体上看,男女智商没有高低之分,男性并不比女性更聪明;
但男性的智商波动更大——在智商超群的人中间,男性的数量要多于女性;当然,智商堪忧的人中间,男性也同样更多。
第三种情况,标准差和均值都不同,能比较专业和业余。
比如个人的射击成绩,都是在平均成绩之间上下波动,基本服从正态分布。
如果我和射击冠军许海峰比赛,结果你能想象——我的成绩肯定波动极大,有时候蒙中10环,有时候脱靶,大多数可能都是3、4环;而许海峰肯定特别稳定,基本都是10环。均值上,他更高,成绩更好;而标准差上,他更小,成绩更稳定。这就说明,许海峰比我专业得多。
其他人总是用“刻意练习”“精准”等来评价专业和业余,但在数学家看来,这些词都太模糊。
真正精确的标准只有两个——均值和标准差。专业就是均值更高,标准差更小,业余恰恰相反。
今次专登讲一个数学方面嘅话题,可能会比较无聊。
不过了解哩个概念,各位以后考虑问题嘅时候,就多左一个思维工具,你观察世界嘅眼光,将会更加精确。
参考得到APP课程《刘嘉:概率论22讲 正态分布:最简单却最实用的概率分布》,作者刘嘉。
王大宝宝宝肉粒
正态分布这个题材实在太好了又可以从新学习一次
何明谦17666 回复 @王大宝宝宝肉粒:
官方托