貝葉斯定理 (英語:Bayes' theorem )是概率論 中的一個定理 ,描述在已知一些条件下,某事件 的发生機率。比如,如果已知某種健康問題与寿命有关,使用贝叶斯定理则可以通过得知某人年龄,来更加准确地计算出某人有某種健康問題的機率。
通常,事件A在事件B已發生的條件下发生的機率,與事件B在事件A已發生的條件下发生的機率是不一樣的。然而,這兩者是有確定的關係的,貝葉斯定理就是這種關係的陳述。貝葉斯公式的一個用途,即透過已知的三個機率而推出第四個機率。贝叶斯定理跟隨機變量 的條件機率 以及邊際機率分布 有關。
作為一個普遍的原理,貝葉斯定理對於所有機率的解釋是有效的。这一定理的主要应用为贝叶斯推断 ,是推论统计学 中的一种推断法。这一定理名稱來自於托马斯·贝叶斯 。
贝叶斯定理的二维可视化图像,图中阐释了事件A、事件B以及他们之间的关系。
贝叶斯定理是关于随机事件A和B的条件概率 的一則定理。
P
(
A
∣
B
)
=
P
(
A
)
P
(
B
∣
A
)
P
(
B
)
{\displaystyle P(A\mid B)={\frac {P(A)P(B\mid A)}{P(B)}}}
其中
A
{\displaystyle A}
以及
B
{\displaystyle B}
為隨機事件 ,且
P
(
B
)
{\displaystyle P(B)}
不為零。
P
(
A
∣
B
)
{\displaystyle P(A\mid B)}
是指在事件
B
{\displaystyle B}
发生的情况下事件
A
{\displaystyle A}
发生的概率。
在贝叶斯定理中,每个名词都有约定俗成的名称:
P
(
A
∣
B
)
{\displaystyle P(A\mid B)}
是已知
B
{\displaystyle B}
發生后,
A
{\displaystyle A}
的條件概率 。也稱作
A
{\displaystyle A}
的事後概率 。
P
(
A
)
{\displaystyle P(A)}
是
A
{\displaystyle A}
的先驗概率 (或边缘概率 )。其不考慮任何
B
{\displaystyle B}
方面的因素。
P
(
B
∣
A
)
{\displaystyle P(B\mid A)}
是已知
A
{\displaystyle A}
發生后,
B
{\displaystyle B}
的條件概率。也可稱爲
B
{\displaystyle B}
的事後機率。某些文獻又称其为在特定
B
{\displaystyle B}
時,
A
{\displaystyle A}
的似然性 ,因爲
P
(
B
∣
A
)
=
L
(
A
∣
B
)
{\displaystyle P(B\mid A)=L(A\mid B)}
。
P
(
B
)
{\displaystyle P(B)}
是
B
{\displaystyle B}
的先驗概率 。
按這些術語,贝叶斯定理可表述為:
后验概率 = (似然性*先驗概率)/標準化常量
也就是說,后验概率与先驗概率和相似度的乘積成正比。
另外,比例
P
(
B
|
A
)
/
P
(
B
)
{\displaystyle P(B|A)/P(B)}
也有時被稱作標准似然度(standardised likelihood ),贝叶斯定理可表述為:
后验概率 = 標準似然度*先驗概率
由贝叶斯公式
P
(
θ
|
X
)
=
P
(
θ
)
P
(
X
|
θ
)
P
(
X
)
∝
P
(
θ
)
P
(
X
|
θ
)
{\displaystyle P(\theta |X)={\frac {P(\theta )P(X|\theta )}{P(X)}}\propto P(\theta )P(X|\theta )}
可以看出,这里面的
θ
{\displaystyle \theta }
是一个随机变量(因为
θ
{\displaystyle \theta }
有概率
P
(
θ
)
{\displaystyle P(\theta )}
)。因为
P
(
θ
|
X
)
∝
P
(
θ
)
P
(
X
|
θ
)
{\displaystyle P(\theta |X)\propto P(\theta )P(X|\theta )}
,所以这也是贝叶斯估计和极大似然估计的区别所在,极大似然估计中要估计的参数是个一般变量,而贝叶斯估计中要估计的参数是个随机变量。
根據條件概率 的定義。在事件
B
{\displaystyle B}
发生的条件下事件
A
{\displaystyle A}
发生的概率是[ 1] :
P
(
A
|
B
)
=
P
(
A
∩
B
)
P
(
B
)
{\displaystyle P(A|B)={\frac {P(A\cap B)}{P(B)}}}
其中
A
{\displaystyle A}
与
B
{\displaystyle B}
的联合概率表示为
P
(
A
∩
B
)
{\displaystyle P(A\cap B)}
或者
P
(
A
,
B
)
{\displaystyle P(A,B)}
或者
P
(
A
B
)
{\displaystyle P(AB)}
。
同樣地,在事件
A
{\displaystyle A}
发生的条件下事件
B
{\displaystyle B}
发生的概率
P
(
B
|
A
)
=
P
(
A
∩
B
)
P
(
A
)
{\displaystyle P(B|A)={\frac {P(A\cap B)}{P(A)}}\!}
整理与合并這兩個方程式,我們可以得到
P
(
A
|
B
)
P
(
B
)
=
P
(
A
∩
B
)
=
P
(
B
|
A
)
P
(
A
)
{\displaystyle P(A|B)\,P(B)=P(A\cap B)=P(B|A)\,P(A)\!}
这个引理有时称作概率乘法规则。上式兩邊同除以
P
(
B
)
{\displaystyle P(B)}
,若
P
(
B
)
{\displaystyle P(B)}
是非零的,我們可以得到贝叶斯定理:
P
(
A
|
B
)
=
P
(
B
|
A
)
P
(
A
)
P
(
B
)
{\displaystyle P(A|B)={\frac {P(B|A)\,P(A)}{P(B)}}\!}
貝氏定理通常可以再寫成下面的形式:
P
(
B
)
=
P
(
A
∩
B
)
+
P
(
A
C
∩
B
)
=
P
(
B
|
A
)
P
(
A
)
+
P
(
B
|
A
C
)
P
(
A
C
)
{\displaystyle P(B)=P(A\cap B)+P(A^{C}\cap B)=P(B|A)P(A)+P(B|A^{C})P(A^{C})}
,
其中A C 是A的補集 (即非A)。故上式亦可寫成:
P
(
A
|
B
)
=
P
(
B
|
A
)
P
(
A
)
P
(
B
|
A
)
P
(
A
)
+
P
(
B
|
A
C
)
P
(
A
C
)
{\displaystyle P(A|B)={\frac {P(B|A)\,P(A)}{P(B|A)P(A)+P(B|A^{C})P(A^{C})}}\!}
在更一般化的情況,假設{A i }是事件集合裡的部份集合,對於任意的A i ,貝氏定理可用下式表示:
P
(
A
i
|
B
)
=
P
(
B
|
A
i
)
P
(
A
i
)
∑
j
P
(
B
|
A
j
)
P
(
A
j
)
{\displaystyle P(A_{i}|B)={\frac {P(B|A_{i})\,P(A_{i})}{\sum _{j}P(B|A_{j})\,P(A_{j})}}\!}
貝氏定理亦可由相似率 Λ和可能性 O 表示:
O
(
A
|
B
)
=
O
(
A
)
⋅
Λ
(
A
|
B
)
{\displaystyle O(A|B)=O(A)\cdot \Lambda (A|B)}
其中
O
(
A
|
B
)
=
P
(
A
|
B
)
P
(
A
C
|
B
)
{\displaystyle O(A|B)={\frac {P(A|B)}{P(A^{C}|B)}}\!}
定義為B發生時,A發生的可能性(odds );
O
(
A
)
=
P
(
A
)
P
(
A
C
)
{\displaystyle O(A)={\frac {P(A)}{P(A^{C})}}\!}
則是A發生的可能性。相似率(Likelihood ratio)則定義為:
Λ
(
A
|
B
)
=
L
(
A
|
B
)
L
(
A
C
|
B
)
=
P
(
B
|
A
)
P
(
B
|
A
C
)
{\displaystyle \Lambda (A|B)={\frac {L(A|B)}{L(A^{C}|B)}}={\frac {P(B|A)}{P(B|A^{C})}}\!}
貝氏定理亦可用於連續機率分佈。由於概率密度函数 嚴格上並非機率,由機率密度函數導出貝氏定理觀念上較為困難(詳細推導參閱[ 2] )。貝氏定理與機率密度的關係是由求極限的方式建立:
f
(
x
|
y
)
=
f
(
x
,
y
)
f
(
y
)
=
f
(
y
|
x
)
f
(
x
)
f
(
y
)
{\displaystyle f(x|y)={\frac {f(x,y)}{f(y)}}={\frac {f(y|x)\,f(x)}{f(y)}}\!}
全機率定理則有類似的論述:
f
(
x
|
y
)
=
f
(
y
|
x
)
f
(
x
)
∫
−
∞
∞
f
(
y
|
x
)
f
(
x
)
d
x
.
{\displaystyle f(x|y)={\frac {f(y|x)\,f(x)}{\int _{-\infty }^{\infty }f(y|x)\,f(x)\,dx}}.\!}
如同離散的情況,公式中的每項均有名稱。
f (x , y )是X 和Y 的聯合分佈;
f (x |y )是給定Y =y 後,X 的事後分佈;
f (y |x )= L (x |y )是Y =y 後,X 的相似度函數(為x 的函數);
f (x )和f (y )則是X 和Y 的邊際分佈;
f (x )則是X 的事前分佈。
為了方便起見,這裡的f 在這些專有名詞中代表不同的函數(可以由引數的不同判斷之)。
對於變數有二個以上的情況,貝氏定理亦成立。例如:
P
(
A
|
B
,
C
)
=
P
(
A
)
P
(
B
|
A
)
P
(
C
|
A
,
B
)
P
(
B
)
P
(
C
|
B
)
{\displaystyle P(A|B,C)={\frac {P(A)\,P(B|A)\,P(C|A,B)}{P(B)\,P(C|B)}}\!}
這個式子可以由套用多次二個變數的貝氏定理及條件機率 的定義導出:
P
(
A
|
B
,
C
)
=
P
(
A
,
B
,
C
)
P
(
B
,
C
)
=
P
(
A
,
B
,
C
)
P
(
B
)
P
(
C
|
B
)
{\displaystyle P(A|B,C)={\frac {P(A,B,C)}{P(B,C)}}={\frac {P(A,B,C)}{P(B)\,P(C|B)}}}
=
P
(
C
|
A
,
B
)
P
(
A
,
B
)
P
(
B
)
P
(
C
|
B
)
=
P
(
A
)
P
(
B
|
A
)
P
(
C
|
A
,
B
)
P
(
B
)
P
(
C
|
B
)
{\displaystyle ={\frac {P(C|A,B)\,P(A,B)}{P(B)\,P(C|B)}}={\frac {P(A)\,P(B|A)\,P(C|A,B)}{P(B)\,P(C|B)}}}
一般化的方法則是利用聯合機率 去分解待求的條件機率,並對不加以探討的變數積分(意即對欲探討的變數計算邊緣機率)。取決於不同的分解形式,可以證明某些積分必為1,因此分解形式可被簡化。利用這個性質,貝氏定理的計算量可能可以大幅下降。貝氏網路 為此方法的一個例子,貝氏網路 指定數個變數的聯合機率分佈 的分解型式,該機率分佈滿足下述條件:當其他變數的條件機率給定時,該變數的條件機率為一簡單型式。
下面展示贝叶斯定理在检测吸毒者时的应用。假设一个常规的检测结果的靈敏度和特異度 均为99%,即吸毒者每次检测呈阳性(+)的概率为99%。而不吸毒者每次检测呈阴性(-)的概率为99%。从检测结果的概率来看,检测结果是比较准确的,但是贝叶斯定理卻可以揭示一个潜在的问题。假设某公司对全体雇员进行吸毒检测,已知0.5%的雇员吸毒。请问每位检测结果呈阳性的雇员吸毒的概率有多高?
令“D”为雇员吸毒事件,“N”为雇员不吸毒事件,“+”为检测呈阳性事件。可得
P(D)代表雇员吸毒的概率,不考虑其他情况,该值为0.005。因为公司的预先统计表明该公司的雇员中有0.5%的人吸食毒品,所以这个值就是D的先验概率 。
P(N)代表雇员不吸毒的概率,显然,该值为0.995,也就是1-P(D)。
P(+|D)代表吸毒者被驗出為阳性的概率,这是一个条件概率 ,由于阳性检测准确性是99%,因此该值为0.99。
P(+|N)代表不吸毒者被驗出為阳性的概率,也就是出错检测的概率,该值为0.01。因为对于不吸毒者,其检测为阴性的概率为99%,因此,其被误检测成阳性的概率为1 - 0.99 = 0.01。
P(+)代表不考虑其他因素的影响的阳性检出率,白話來說,即該公司有多少比例的檢測結果為陽性。该值为0.0149或者1.49%。我们可以通过全概率公式 计算得到:此概率 = 身爲吸毒者的概率 x 吸毒被驗出陽性的概率(0.5% x 99% = 0.495%) + 身爲不吸毒者的概率 x 不吸毒卻被驗出陽性的概率(99.5% x 1% = 0.995%)。P(+)=0.0149是检测呈阳性的先验概率 。用数学公式描述为:
P
(
+
)
=
P
(
+
∩
D
)
+
P
(
+
∩
N
)
=
P
(
+
|
D
)
P
(
D
)
+
P
(
+
|
N
)
P
(
N
)
{\displaystyle P(+)=P(+\cap D)+P(+\cap N)=P(+|D)P(D)+P(+|N)P(N)}
根据上述描述,我们可以计算某人检测呈阳性时确实吸毒的条件概率P(D|+):
P
(
D
|
+
)
=
P
(
+
|
D
)
P
(
D
)
P
(
+
)
=
P
(
+
|
D
)
P
(
D
)
P
(
+
|
D
)
P
(
D
)
+
P
(
+
|
N
)
P
(
N
)
=
0.99
×
0.005
0.99
×
0.005
+
0.01
×
0.995
=
0.3322.
{\displaystyle {\begin{aligned}P(D|+)&={\frac {P(+|D)P(D)}{P(+)}}\\&={\frac {P(+|D)P(D)}{P(+|D)P(D)+P(+|N)P(N)}}\\&={\frac {0.99\times 0.005}{0.99\times 0.005+0.01\times 0.995}}\\&=0.3322.\end{aligned}}}
尽管吸毒检测的准确率高达99%,但贝叶斯定理告诉我们:如果某人检测呈阳性,其吸毒的概率只有大约33%,不吸毒的可能性比较大。假阳性高,则检测的结果不可靠。這是因爲該公司不吸毒的人數遠遠大於吸毒人數,所以即使不吸毒者被誤檢為陽性的概率僅爲1%,其實際被誤檢人數還是很龐大。舉例來說,若該公司總共有1000人(其中5人吸毒,995人不吸),不吸毒的人被檢測出陽性的人數有大約10人(1% x 995),而吸毒被驗出陽性的人數有5人(99% x 5),總共15人被驗出陽性(10 + 5)。在這15人裏面,只有約33%的人是真正有吸毒。所以貝氏定理可以揭露出此檢測在這個案例中的不可靠。
同時,也因爲不可靠的主因是不吸毒卻被誤檢陽性的人數遠多於吸毒被檢測出來的人數(上述例子中10人 > 5 人),所以即使陽性檢測靈敏度能到100%(即只要吸毒一定驗出陽性),檢測結果陽性的員工,真正吸毒的概率
P
(
D
|
+
)
{\displaystyle P(D|+)}
也只會提高到約33.4%。但如果靈敏度仍然是99%,而特異度卻提高到99.5%(即不吸毒的人中,約0.5%會被誤檢為陽性),則檢測結果陽性的員工,真正吸毒的概率可以提高到49.9%。
基于贝叶斯定理:即使100%的胰腺癌症患者都有某症状,而某人有同样的症状,绝对不代表该人有100%的概率得胰腺癌,还需要考虑先验概率,假设胰腺癌的发病率是十万分之一,而全球有同样症状的人有万分之一,则此人得胰腺癌的概率只有十分之一,90%的可能是是假阳性。
基于贝叶斯定理:假设100%的不良种子都表现A性状,而种子表现A性状,并不代表此种子100%是不良种子,还需要考虑先验概率,假设一共有6万颗不良种子,在种子中的比例是十万分之一(假設总共有60亿颗种子),假设所有种子中有1/3表现A性状(即20亿颗种子表现A性状),则此种子为不良种子的概率只有十万分之三。
^ Kenneth H. Rosen. Discrete Mathematics and its Applications 7th edition. 2012: 456. ISBN 978-0-07-338309-5 (英语) .
^ Papoulis A.(1984). Probability, Random Variables, and Stochastic Processes, 2nd edition. Section 7.3. New York: McGraw-Hill.