博客

请百分之百地相信,他是概率学史上最性感的男人

Thomas Bayes

你知道他的全名么 ? Thomas (Tom) Bayes

贝叶斯学派

在之前的一篇文章里,我介绍了概率学历史上的主流学派,和沿用至今的理论。

贝叶斯学派是两大学派之一,贝叶斯定理至今仍被广泛应用。

文章的第一句话概述了该学派对概率的看法:概率即相信程度。

用频率解读

可信度也用类似频率学派的方式来解读,通过期望来联系。

比如,当我说 “明天下雨的概率是80%” 时,这里的80%是指我个人对下雨事件的相信程度。频率学派并不认同这种可信度的定义方式,甚至他们认为概率不能定义在这种事上。

但我们仍可以用相似的方式描述明天下雨的概率值,我们可以说: 我们对‘明天下雨’的期望与“从一个含有8个白球,2个黑球的袋子中随机取出一个球后,得到白球”的期望是一样的

 

问题背景

贝叶斯定理常用在什么情况下呢。

我们曾说,概率学的主要目的是用数学的方式表示(量化)一件事物的不确定性(包含随机性)。

但在现实中,我们常感兴趣的是事件之间的联系。比如我们常问这样的问题:

  1. 当这件事发生了将导致什么后果呢 ?
  2. 这件事发生的原因是什么呢 ?

本质上,这里我们讨论的是事件间的因果关系,而在现实中我们常发现,第二个问题比第一个问题常常更难回答。那这是为什么呢 ?

 

清晰的问题

我想这是因为,现实中当我们知道一件事(A)会发生时,我们其实还知道:

  1. 这件事将导致一个结果(事件B)。
  2. 将导致的结果是唯一的。
  3. 如果A的某些细节变了一点,B也会不同。

哈,数学家们可最喜欢这类问题了,准确说,这样(知因寻果)的问题被定义得很清晰(Well-posed)。

 

寻因之艰

那对于第二个问题呢,为什么由果寻因常常很难呢 ?

现实是,我们所观察到的现象通常是很多不同原因(单独或共同)导致的。

巧的是,这刚好不满足‘数学家眼中清晰定义的问题’的第二个条件 - 原因通常不为一。

但艰难不意味着止步不前,人们总是有探知事物起因的方法的,贝叶斯定理便是之一。

 

条件概率

  • Conditional Probability

我们刚说到,人们喜欢讨论两件事的关系。那么,在表示多件事的概率时,我们就常常会用到的就是条件概率(Conditional Probability)当然啦,贝叶斯定理也离不开它。

条件概率常被写成这种形式:P(事件A | 事件B)

它表示,当事件B发生后(或我们假设它发生了),事件A发生的概率。我们对它们的具体描述可以是过去,也可以是将来。(我想)重要的是它们的相对发生顺序:B在A之前,而不是它们相对于我们的顺序。

 

关联而非因果

要注意的是,事件A和B只是现实中,基于人的经验或科学知识,可能有关联的两件事。它们未必是因果关系,因而不能把条件概率解读为:事件B的发生将导致事件A。

比如,观察到行人打伞让我们更加相信‘此刻正在下雨’,而打伞并不是导致下雨的原因,只不过基于我们的生活经验,这两件事相关联罢了。

假设一下,如果我们都确定知道B会导致A,那么这个条件概率也就是1了,而且P(A) = P(B)。

 

联合概率

你可能会想,那要是我不在乎两个事情发生的顺序呢,我就想知道它们共同发生的概率。

嗯,前人也想过这个问题了,因此它们把这个定义为两个事件的联合概率(Joint Probability)。

对于两个相互独立,互不影响对方发生的事件,联合概率被这样计算。

P(事件A, 事件B)= P(事件A)x P(事件B)

挺符合直觉的吧,这也是概率公理的推论之一

要想把事件发生的顺序考虑进去,我们也可以用条件概率来计算联合概率。

P(事件A, 事件B)= P(事件A | 事件B)x P(事件B)
P(事件A, 事件B)= P(事件B | 事件A)x P(事件A)

联合概率也可以这么解读:你可以想像有无数个平行宇宙,其中事件A和B之一或共同发生,或都没发生。然后我们去找到那些事件B发生的世界(集合S1),再看这些世界里有哪些中A也发生了(集合S2)。那么我们探寻联合概率的过程,也就可以被看成,先算S1在所有世界的比例,P(B),再把它乘上S2在S1中的比例,P(A|B)。

 

分学派么

我是这么想的,联合概率和条件概率都是存在于概率公理的推论

而频率学派和贝叶斯学派的主要的分歧在对于概率的解读,或者说 概率应该被定义在哪些事上。不论用哪个学派的思考方式解决问题,计算时都得符合概率的公理。

因为现实中不可被重复的事太多了,既然频率学派眼中概率不能被定义在它们身上,那我们就用事情的可信度解读条件概率呗。

而如果俩事恰好是可被重复的,那么我们就多一种解读方式:大量实验结果的频率 - 确实更严谨一些。

 

贝叶斯定理

介绍完问题背景和条件概率,终于可以介绍这个定理啦。

纯数学

从数学角度看,它不过定义了计算一个条件概率的方式。也是下面等式的变形:

P(A|B) x P(B) = P(B|A) x P(A)

可以变形为:

P(A|B) = P(B|A) x P(A) / P(B),或者
P(B|A) = P(A|B) x P(B) / P(A)

啥 ?你是不是觉得,只要会除法运算的人写写画画,左右调整下条件概率的公式里项的位置,也能倒腾出这个来。是的,咱要早几个世纪把烙饼卖到欧洲,还能发明披萨呢。

回到正题,因为两种形式对称,接下来我们就讨论 P(A|B) 在左边的形式。

 

贝叶斯语境

数学角度来看,这个公式也没啥。

但在贝叶斯定理的语境下,A通常被看作一件事可能的原因(也可以说,A是一个假设),而B代表了已经被观察收集到的所有信息。这样看,P(A|B)也就突然有了深刻意义。它意味着 根据目前所观察的所有信息,假设A成立 的概率。

这个定理的出现,似乎就是为了给 ‘由现象探索起因’ 这事儿提供个科学方法的。

插一句,我不知道(还没查)在历史上,条件概率和贝叶斯定理哪个被先定义。如果先有前者的话,那我们可以这样想:贝叶斯在条件概率的公式上增加了额外的定义,使它成为了一个定理。

那他增加了哪些定义呢 ?我们刚解释完等式左边,其实右边的每一项也都有贝叶斯的定义,我这就一个个解释。

要注意的是,贝叶斯用了些传统的词汇来解读它们,而当下我们可能常用些更准确的名词。

 

先验概率

等下,咱不是要算 P(A|B) 吗,咋还需要P(A)呀,这可怎么算啊 ?

这也是贝叶斯定理(或者说贝叶斯学派)里最独特的地方:允许人根据经验知识,直接代入数字表示概率 - 他们的概率确实是这么定义的,可信度不就是人的相信程度嘛。

这也是为什么这一项叫做 先验概率 (Prior),等式左边的(我们计算得出的)被称作后验概率

更准确说,这一项包含了,基于我们到此刻为止(包括所有人类历史)所积累的所有信息,经验和知识,对事件A的可能性的估计值。

换个角度说,与其说是算 ‘依据信息B假设A成立’的概率,倒不如说,贝叶斯定理就是被用来 在获得信息B后,更新A的概率的,它可以被反复使用。

在此刻(比如8:00 P.M.) 我们用贝叶斯定理,根据刚获得的信息B,更新了事件A发生的概率,得到P(A|B)= X。那么在之后(比如 9:00 P.M.)获得新的不同信息C时,如果我们可以再用贝叶斯定理更新A的发生概率 P(A|C),而这时所用的先验概率 P(A) 其实就是 P(A|B) 的值 X,因为我们知道B是已有信息。

准确说,P(A) 表示的是 P(A | 目前所知道的所有相关信息)。

 

证据概率 P(B)

证据概率(Evidence) 是等式右边分母。

虽然它叫作‘证据’,但它实际表示’观察到当下所有信息’的概率。比如,’人们打伞’的概率表示的是 ‘从伞被发明以来,人们在任何天气环境里打伞’ 的概率。注意,我们把关注点放在所获的信息(一具体事件)上,应该考虑它可能出现的所有环境。

它与后验概率负相关,也就是说,它的数值越小,计算出的后验概率越大。那么什么时候一个证据的概率值很小呢 ?

你可以想象现实中那些很罕见的事情,比如不明飞行物。这些事出现时往往极大地影响我们对事物原因的判断,从贝叶斯定理来看,也就是后验概率的大小。相对应的,对于那些常见的事,它们的概率值比较大(更接近1),因而我们对事物的判断(后验概率)很少被它们影响。

注意到了吗,‘观测信息’事件的概率也可以被解读为事件的常见程度

另外,我觉得,因为有时候观测过程会存在不确定性,你在计算证据概率时,可能需要考虑,确定性因素导致观测到目前信息 和 不确定因素导致观测到这些信息 的总可能性是多少。

 

归一常数

证据概率有时候很难得知或计算,它有时候也被称作归一常数 (Normalizing Constant)。因为在用贝叶斯定理时,我们通过对所有假设的 (Prior x Likelihood)求和来获得这个常数)。

我想这是因为,在一些问题环境下,我们更在乎的是比较几个后验概率的相对大小,而不是它们的具体概率值。注意到了吗,用同一个信息B来更新每个假设(A1, A2 ..)时,都会除以同一个证据概率。

 

似然性 P(B|A)

这个词来自英文 Likelihood,我总觉得翻译得很别扭。而如果我们把 Likelihood 翻译成 ‘可能性’,‘概率’,在许多语境下也完全合理。总之,不必太纠结它的命名。

你只要知道贝叶斯定理中,等式右边这一条件概率被称作‘似然性’就好。

还记得我们的问题情景吗,我们正在从已知的观察信息探寻原因呢,等式左边表示某个原因的概率。

而这个似然性就是由因寻果问题里 ‘某事发生时将导致某结果’ 的概率。具体来说,在这里它是 ‘假设成立时观察到现有信息’ 的概率。

它与我们要计算的(后验概率)呈正相关。我觉得对于它,合理的解读方式有:

  1. 当前观察到的信息B对该假设A的支持程度。
  2. 信息B与假设A的相关强度。

 

语义冲突

那么这个似然性怎么计算呢 ?

数学角度来看,它就是个条件概率呀,放在贝叶斯定理左边来算呗。

(Hmmm,好像不太对:数学计算里,需要用鸡生蛋时,不能先假设蛋能生出鸡。)

准确说,这样做在语义上与贝叶斯定义的不符。贝叶斯定理的语境下,等式左边的是 ‘依据已观察信息,某假设成立’ 的概率,而不是 ‘若假设成立,获得已观察信息’。

因此在具体问题上用贝叶斯定理时,这个值通常需要用其他(非贝叶斯定理)方式计算或推理出。

 

总结

这篇文章从人们在现实中常遇到的一个问题开始讨论 - 探索两件事的关系。

接着描述了人们探知关系的两种情景:由因寻果和由果寻因,也从数学家定义问题的方式的角度,说明了为什么后者常常比前者更难。

因为涉及两件事的不确定性,现实中的两件事通常有先后发生顺序,我简单讲解了条件概率。

随后才进入了主题:用于解决‘由果溯因’问题的贝叶斯定理。

尽管定理只是一个简单的数学等式,但它的每一项又有被贝叶斯定义的含义,我逐一解释了它们。

最后强调了贝叶斯定理的本质:根据新信息更新一个假设的可信度。根据这个本质,它常随着获取信息的增加,被反复应用。

 

更多

概率与可能性在生活中无处不在,我们都可以利用它们来做出合理 / 利益最大化的生活决策。

为什么从一个简单的例子开始不试试呢 ?

另一篇文章里,我讲解了如何将现实数据带入贝叶斯公式,来评估硬币这个简单随机系统。