概率可以用来做什么 ?不同学派是怎么使用它的 ?
统计与抽样
我想从统计学说起,因为现实中人们研究概率常常离不开数据,而收集和分析数据是统计的一部分。
说到统计学,人常会联想到 ‘抽样调查’和’样本数据’ 这样的词汇。
关于样本,我们有这几个具体的问题值得思考:
- 我们什么时候会需要获取样本呢 ?
- 得到样本后我们又可以进行哪些计算呢 ?
- 对样本的计算能够使我们达到什么目的呢 ?
为什么抽样
广义上来说,样本可以是任何来自于某个群体的信息。当我们想调查某个群体的属性,又无法调查每一个个体时,我们便会抽样来获取信息。
样本信息通常是我们主动去获取的:比如走访各家各户收集居民信息。但它也可以是人被动接收到的:比如汽车修理工经常要修理汽车的某些部件 - 也就对部件的耐久度有了了解。
样本描述
比如在获得一座城市的一些居民样本后,我们可以对样本居民的年龄进行分析,计算平均值和方差等等。
但这种计算本质上都是用数学模型对已知的数据进行描述,属于描述统计学(Descriptive Statistics)。严格来说,我们只是整合已有数据,换不同的角度来观察它们,并没有生成新的知识。
对于样本数据的计算和属性分析,也不涉及任何的不确定性(概率)。因为样本数据是已知的,真实地来源于现实的。
推理统计
可印象中,谈到样本和分析,总离不开一些概率计算呀,那么这个不确定性来自哪呢 ?
是的。因为人们获取样本,可不只是分析样本的属性,常常希望能推测整个群体,而在我们获取这个群体的所有个体信息之前,群体对我们总是存在着不确定性。
这个通过一部分个体的信息,对仍存在未知的群体进行推测的过程,就是推论统计学 (Inferential Statistics) 所研究的,概率理论必不可少。
推论些什么
还是从一个生活中的例子出发吧,当我们想了解一座100万人口的城市居民年龄时,我们可以抽样调查其中1万人的年龄。
属性估计
当我们计算出这1万人的平均年龄X时,我们常会做出这样的推论:这座城市人口的平均年龄估计是X。
这就是推论统计学的一个常见目的:估计目标群体的某个属性(Parameter Estimation),比如居民年龄的平均值。当我们研究一个系统(随机与否)时,则会对系统的某些参数做估计,但方法相似。
值得注意的是,做出估计意味着做出存在不确定性的结论,因此结论中得用概率(数字或分布)来表达不确定性。
数据预测
既然我们有了些人口数据的样本,也对群体平均年龄有了估计。那么我们的推论能够帮助我们解答什么问题呢 ?
比如当我们随机再从人群中抽取一个人,这个人最有可能是多少岁呢 ?或者说,这个人的年龄最有可能在哪个范围呢 ?
这也就是对未知数据的预测,我们可能会用到之前计算的年龄平均值估计,可能还要考虑人群的年龄是否是正态分布等等。
模型比较
其实,不论是估计参数还是预测未知数据,我们都悄悄做了这个假设:未知群体(或系统)具有着某种数学(比如概率分布)模型。因为参数都是被定义在某个模型中的,而模型决定了所有(已知和未知)数据。
模型是对现实事物的一套依赖于科学的解释理论,在许多事上,人们会比较不同的模型,选择最合理的那一个。怎样才是合理,如何比较不同模型则说来话长了,但这是推论统计学的目的之一。
模型的例子
你可以把模型想象成一个群体的数据分布,比如城市居民的年龄常常是接近正态分布的,年轻人和中年人占了多数。你也可以想象电影时间管理局中人们的年龄分布,从外表和生理机能来看大多在25岁,这就不是正态分布模型了。
从这个角度来看,模型描述了一个群体中的数据分布。
再想想我们抛硬币,掷骰子随机生成正反面或数字1到6的随机过程。
它们都能各自被看作一个随机数生成模型,能够生成2种等概率结果(硬币),或者6种(骰子)。
这就是当我们把这现实物体用数学语言抽象描述时,所定义的模型。从这个角度来看,模型描述了一个随机系统中数据可能的存在值,和它们各自的可能性。更准确说,这还是一个概率分布模型。
推论与概率
至此,我们知道了推论统计学常需要做的事:对系统参数 / 群体属性的预估,对未知数据的预测,和 假设系统背后的可能的数学模型(再评估它们的可能性)。
这些都是存在不确定性的推论,而量化表达其中的不确定性则常常要使用概率。
既然统计学家们要用概率了,他们该选择用哪种概率呢 ?
这又回到了人们看待概率的方式。总的来说,目前频率学派和贝叶斯学派都有自己的一套方法论。
前者严格地把概率看作长期可重复事件产生结果的频率,后者则用主观的经验知识,相信程度和逻辑支持程度来表示概率。
接下来要讨论的就是,二者不同的思维方式的带来了它们解决问题时的不同方式。
看待事物的概率
按照频率学派对概率的定义,生活中的各种假说不存在概率,它们要么是真,要么是假,只是人们不知道罢了。对单次事件的预测也不存在概率,比如说我们无法进行两次一模一样的2020年美国总统大选。甚至对一座城市人口的平均年龄估计也不存在概率,因为这是个固定值,只不过我们很难去采访每一个人罢了。
相反,贝叶斯学派倒觉得,只要人们觉得不确定的事,都可以用概率来描述。
那再回到之前谈到的推论统计学,和人们获得样本数据后的下一步 - 估计参数 / 预测数值,比较模型
在这个过程中,频率学派和贝叶斯学派会如何使用概率呢 ?
参数预估
就拿估计城市居民年龄的平均值来举例吧。
频率学派
频率学派会强调说,这个数值是确定的,没有随机性也没有不确定性,就用不着概率。但因为我们人的能力有限,获取所有人的信息很困难,我们将抽取一些年龄样本,然后选取那个与样本数据最贴合的值作为估计。
再多说一句,这个估计值被称作 Maximum Likelihood Estimate。你可以想象人们已经知道群体的数据分布模型族,把不同的参数代入,生成具体的模型,再选择最合理的那个。
之后你会了解到,频率学派对群体平均值选用的 MLE 也就是样本的平均值。
贝叶斯学派
贝叶斯学派的人倒不反对这个群体平均值是固定的,不随机的。但他们认为,只要人类主观存在不确定性,都可以引入概率来表示目标(比如平均年龄的各种可能数值)。
与其对目标给出一个估计,贝叶斯学派常给出一个概率分布,描述目标的有哪些可能值和各自的概率。
那么贝叶斯学派怎么计算出一个合理的概率分布呢 ?做法第一步跟频率学派一样,是收集样本数据,但之后使用贝叶斯定理对概率分布不断更新(而不是计算MLE)。
学派间冲突
频率学派,从他们对概率的定义也可以看出,不同意贝叶斯学派观点主要因为,贝叶斯对概率(或者说概率分布)的描述常基于一个先验概率,这种主观假设在估计概率时很可能带来错误(的确是有一定道理)。
有的哲学家认为,即便人类在几千年里吃了上亿个甜苹果,也无法证明我们吃的下一个会是甜的。
而贝叶斯学派认为,我们就应该利用已有知识和过去的经验来帮助我们计算概率。
从两个学派至今并存的情况来看,你大概也猜出了,他们谁也没能说服对方是错的,他们都提出了用在推论统计学的概率理论和方法,使用这些方法都能获得令人信服的结果。
预测未知的方式
因为估计模型参数时两个学派便采用不同的思路,那么在 如何运用参数的估计值来预测数据 这件事上,他们的做法也是不同的。
对未知数据,频率学将给出一个点估值 Maximum Likelihood Point Estimate (MLPE),作为他们最准确的估计。
而贝叶斯学派,(还记得他们如何估计参数吗),则仍然给出一个未知数据的概率分布,代表了未知数的所有可能值和概率。
这么说,频率学派给出单一估计值的做法,似乎没考虑到未知数据的其他可能性呀。
是的,单一估值通常与真实值不相等,但通常很接近。频率学派能做的就是尽可能缩小这个估值和真实值的差距,或者说缩小长期误差率。
为达到这个目的而被发明(且常用)的方法有两个:一个是 Null Hypothesis Significance Test,这个将在之后讨论。另一个是信心区间。
信心区间
就像贝叶斯学派那样给出未知数据的概率分布,频率学派也可以给出一个范围估计。这就是信心区间(Confidence Interval)。但要注意,频率学派眼中的尽可能不是这样:给一个范围然后说 “真实值有很大概率在这儿”,这与他们定义概率的方式就不一致。
概率在频率学派眼中,只能是“长期重复实验的结果频率”。因此,比如当他们给出一个95%信心区间时,他们真正想说的是,重复这个 获取样本数据,计算信心区间 过程无数次,被计算出的这无数个信心区间中有95%包含这个真实值。
强调这一点是因为人们常把信心区间误解为:一个计算出的信心区间包含真实值的概率是95%。按照频率学派的观点,真实值是固定的,尽管我们不知道,但客观上,它要么在我们计算的信心区间里,要么不在。换句话说,人对未知的不确定性不是他们认可和定义的概率。
那么具体怎么计算信心区间呢,这篇文章不讨论。它是的流程是相当固定的。
重要的是,读到这里,你已经知道了,人们样本数据来预测未知数时,可以选择不同学派的思考方式和相应的计算方法。而信心区间便是频率学派给出一个范围估计的方式,类比于贝叶斯学派给出概率分布。你也知道了信心空间的正确理解方式。
零假设测试
(写完这一节后,我发现内容篇幅有点长,就把它放在单独一篇文章里。)