频率学派与贝叶斯学派

概率可以用来做什么？不同学派是怎么使用它的？

统计与抽样

我想从统计学说起，因为现实中人们研究概率常常离不开数据，而收集和分析数据是统计的一部分。

说到统计学，人常会联想到 ‘抽样调查’和’样本数据’ 这样的词汇。

关于样本，我们有这几个具体的问题值得思考：

我们什么时候会需要获取样本呢？
得到样本后我们又可以进行哪些计算呢？
对样本的计算能够使我们达到什么目的呢？

为什么抽样

广义上来说，样本可以是任何来自于某个群体的信息。当我们想调查某个群体的属性，又无法调查每一个个体时，我们便会抽样来获取信息。

样本信息通常是我们主动去获取的：比如走访各家各户收集居民信息。但它也可以是人被动接收到的：比如汽车修理工经常要修理汽车的某些部件 - 也就对部件的耐久度有了了解。

样本描述

比如在获得一座城市的一些居民样本后，我们可以对样本居民的年龄进行分析，计算平均值和方差等等。

但这种计算本质上都是用数学模型对已知的数据进行描述，属于描述统计学（Descriptive Statistics)。严格来说，我们只是整合已有数据，换不同的角度来观察它们，并没有生成新的知识。

对于样本数据的计算和属性分析，也不涉及任何的不确定性（概率）。因为样本数据是已知的，真实地来源于现实的。

推理统计

可印象中，谈到样本和分析，总离不开一些概率计算呀，那么这个不确定性来自哪呢？

是的。因为人们获取样本，可不只是分析样本的属性，常常希望能推测整个群体，而在我们获取这个群体的所有个体信息之前，群体对我们总是存在着不确定性。

这个通过一部分个体的信息，对仍存在未知的群体进行推测的过程，就是推论统计学 (Inferential Statistics) 所研究的，概率理论必不可少。

推论些什么

还是从一个生活中的例子出发吧，当我们想了解一座100万人口的城市居民年龄时，我们可以抽样调查其中1万人的年龄。

属性估计

当我们计算出这1万人的平均年龄X时，我们常会做出这样的推论：这座城市人口的平均年龄估计是X。

这就是推论统计学的一个常见目的：估计目标群体的某个属性（Parameter Estimation)，比如居民年龄的平均值。当我们研究一个系统（随机与否）时，则会对系统的某些参数做估计，但方法相似。

值得注意的是，做出估计意味着做出存在不确定性的结论，因此结论中得用概率（数字或分布）来表达不确定性。

数据预测

既然我们有了些人口数据的样本，也对群体平均年龄有了估计。那么我们的推论能够帮助我们解答什么问题呢？

比如当我们随机再从人群中抽取一个人，这个人最有可能是多少岁呢？或者说，这个人的年龄最有可能在哪个范围呢？

这也就是对未知数据的预测，我们可能会用到之前计算的年龄平均值估计，可能还要考虑人群的年龄是否是正态分布等等。

模型比较

其实，不论是估计参数还是预测未知数据，我们都悄悄做了这个假设：未知群体（或系统）具有着某种数学（比如概率分布）模型。因为参数都是被定义在某个模型中的，而模型决定了所有（已知和未知）数据。

模型是对现实事物的一套依赖于科学的解释理论，在许多事上，人们会比较不同的模型，选择最合理的那一个。怎样才是合理，如何比较不同模型则说来话长了，但这是推论统计学的目的之一。

模型的例子

你可以把模型想象成一个群体的数据分布，比如城市居民的年龄常常是接近正态分布的，年轻人和中年人占了多数。你也可以想象电影时间管理局中人们的年龄分布，从外表和生理机能来看大多在25岁，这就不是正态分布模型了。

从这个角度来看，模型描述了一个群体中的数据分布。

再想想我们抛硬币，掷骰子随机生成正反面或数字1到6的随机过程。

它们都能各自被看作一个随机数生成模型，能够生成2种等概率结果（硬币），或者6种（骰子）。

这就是当我们把这现实物体用数学语言抽象描述时，所定义的模型。从这个角度来看，模型描述了一个随机系统中数据可能的存在值，和它们各自的可能性。更准确说，这还是一个概率分布模型。

推论与概率

至此，我们知道了推论统计学常需要做的事：对系统参数 / 群体属性的预估，对未知数据的预测，和假设系统背后的可能的数学模型（再评估它们的可能性）。

这些都是存在不确定性的推论，而量化表达其中的不确定性则常常要使用概率。

既然统计学家们要用概率了，他们该选择用哪种概率呢？

这又回到了人们看待概率的方式。总的来说，目前频率学派和贝叶斯学派都有自己的一套方法论。

前者严格地把概率看作长期可重复事件产生结果的频率，后者则用主观的经验知识，相信程度和逻辑支持程度来表示概率。

接下来要讨论的就是，二者不同的思维方式的带来了它们解决问题时的不同方式。

看待事物的概率

按照频率学派对概率的定义，生活中的各种假说不存在概率，它们要么是真，要么是假，只是人们不知道罢了。对单次事件的预测也不存在概率，比如说我们无法进行两次一模一样的2020年美国总统大选。甚至对一座城市人口的平均年龄估计也不存在概率，因为这是个固定值，只不过我们很难去采访每一个人罢了。

相反，贝叶斯学派倒觉得，只要人们觉得不确定的事，都可以用概率来描述。

那再回到之前谈到的推论统计学，和人们获得样本数据后的下一步 - 估计参数 / 预测数值，比较模型

在这个过程中，频率学派和贝叶斯学派会如何使用概率呢？

参数预估

就拿估计城市居民年龄的平均值来举例吧。

频率学派

频率学派会强调说，这个数值是确定的，没有随机性也没有不确定性，就用不着概率。但因为我们人的能力有限，获取所有人的信息很困难，我们将抽取一些年龄样本，然后选取那个与样本数据最贴合的值作为估计。

再多说一句，这个估计值被称作 Maximum Likelihood Estimate。你可以想象人们已经知道群体的数据分布模型族，把不同的参数代入，生成具体的模型，再选择最合理的那个。

之后你会了解到，频率学派对群体平均值选用的 MLE 也就是样本的平均值。

贝叶斯学派

贝叶斯学派的人倒不反对这个群体平均值是固定的，不随机的。但他们认为，只要人类主观存在不确定性，都可以引入概率来表示目标（比如平均年龄的各种可能数值）。

与其对目标给出一个估计，贝叶斯学派常给出一个概率分布，描述目标的有哪些可能值和各自的概率。

那么贝叶斯学派怎么计算出一个合理的概率分布呢？做法第一步跟频率学派一样，是收集样本数据，但之后使用贝叶斯定理对概率分布不断更新（而不是计算MLE）。

学派间冲突

频率学派，从他们对概率的定义也可以看出，不同意贝叶斯学派观点主要因为，贝叶斯对概率（或者说概率分布）的描述常基于一个先验概率，这种主观假设在估计概率时很可能带来错误（的确是有一定道理）。

有的哲学家认为，即便人类在几千年里吃了上亿个甜苹果，也无法证明我们吃的下一个会是甜的。

而贝叶斯学派认为，我们就应该利用已有知识和过去的经验来帮助我们计算概率。

从两个学派至今并存的情况来看，你大概也猜出了，他们谁也没能说服对方是错的，他们都提出了用在推论统计学的概率理论和方法，使用这些方法都能获得令人信服的结果。

预测未知的方式

因为估计模型参数时两个学派便采用不同的思路，那么在如何运用参数的估计值来预测数据这件事上，他们的做法也是不同的。

对未知数据，频率学将给出一个点估值 Maximum Likelihood Point Estimate (MLPE)，作为他们最准确的估计。

而贝叶斯学派，（还记得他们如何估计参数吗），则仍然给出一个未知数据的概率分布，代表了未知数的所有可能值和概率。

这么说，频率学派给出单一估计值的做法，似乎没考虑到未知数据的其他可能性呀。

是的，单一估值通常与真实值不相等，但通常很接近。频率学派能做的就是尽可能缩小这个估值和真实值的差距，或者说缩小长期误差率。

为达到这个目的而被发明（且常用）的方法有两个：一个是 Null Hypothesis Significance Test，这个将在之后讨论。另一个是信心区间。

信心区间

就像贝叶斯学派那样给出未知数据的概率分布，频率学派也可以给出一个范围估计。这就是信心区间（Confidence Interval）。但要注意，频率学派眼中的尽可能不是这样：给一个范围然后说 “真实值有很大概率在这儿”，这与他们定义概率的方式就不一致。

概率在频率学派眼中，只能是“长期重复实验的结果频率”。因此，比如当他们给出一个95%信心区间时，他们真正想说的是，重复这个 获取样本数据，计算信心区间 过程无数次，被计算出的这无数个信心区间中有95%包含这个真实值。

强调这一点是因为人们常把信心区间误解为：一个计算出的信心区间包含真实值的概率是95%。按照频率学派的观点，真实值是固定的，尽管我们不知道，但客观上，它要么在我们计算的信心区间里，要么不在。换句话说，人对未知的不确定性不是他们认可和定义的概率。

那么具体怎么计算信心区间呢，这篇文章不讨论。它是的流程是相当固定的。

重要的是，读到这里，你已经知道了，人们样本数据来预测未知数时，可以选择不同学派的思考方式和相应的计算方法。而信心区间便是频率学派给出一个范围估计的方式，类比于贝叶斯学派给出概率分布。你也知道了信心空间的正确理解方式。

零假设测试

（写完这一节后，我发现内容篇幅有点长，就把它放在单独一篇文章里。）

博客