1.样本空间&概率

约定

表示事件的花括号 \(\{\}\) 在表示为概率的原像的时候可以省略，即 \(P(事件)=P(\{事件\})\)
\(A\cap B\) 简记为 \(AB\)，并且结合性比 \(\cup\) 高

1. 集合

集合

集合：将一些研究对象放在一起形成集合，这些对象的称为集合的元素

若 x 是集合 S 的元素，那么 \(x\in S\)，反之 \(x\notin S\)

空集：记作 \(\emptyset\)

集合的表示：(1) \(S=\{x\in\Omega~|~x 满足性质 P\}\)，(2) \(S=\{x_1,x_2,\dots\}\)

可数无限集：由无限多个元素构成的集合

子集，超集：S 是 T 的子集（记为 \(S\subset T\)），当且仅当 T 是 S 的超集（记为 \(T\supset S\)）

集合相等：集合 S 与集合 T 相等（即 \(S=T\)），当且仅当 \(S\subset T\) 并且 \(T\subset S\)

空间：将我们感兴趣的所有元素放在一起，形成的集合称为空间，记作 \(\Omega\)

集合运算

补集：S 相对于 \(\Omega\) 的补集，记作 \(S^c=\{x\in\Omega~|~x\notin S\}\)；特别地 \(\Omega^c=\emptyset\)

并集：\(S\cup T = \{x~|~x\in S\vee x\in T\}\)；\(\bigcup\limits_{i=1}^nS_i=\{x~|~存在 i, 有x\in S_i\}\)

交集：\(S\cap T = \{x~|~x\in S\wedge x\in T\}\)；\(\bigcap\limits_{i=1}^nS_i=\{x~|~对于所有 i, 有x\in S_i\}\)

集合代数

交换律 \(S\cup T=T\cup S\)，结合律 \(S\cup(T\cup U)=(S\cup T)\cup U\)

分配率：\(S\cap(T\cup U)=(S\cap T)\cup(S\cap U)\)，\(S\cup(T\cap U)=(S\cup T)\cap(S\cup U)\)

\((S^c)^c=S\)，\(S\cap S^c=\emptyset\)，\(S\cup\Omega=\Omega\)，\(S\cap\Omega=S\)

德摩根定律：\((\bigcup\limits_{i=1}^nS_i)^c=\bigcap\limits_{i=1}^nS_i^c\)，\((\bigcap\limits_{i=1}^nS_i)^c=\bigcup\limits_{i=1}^nS_i^c\)

证明德摩根定律：

\((\bigcup\limits_{i=1}^nS_i)^c=(\{x\in\Omega:\exists i=1..n,x\in S_i\})^c=\{x\in\Omega:\forall i=1..n,x\not\in S_i\}=\{x\in\Omega:\forall i=1..n,x\in S_i^c\}=\bigcap\limits_{i=1}^nS_i^c\)
\((\bigcap\limits_{i=1}^nS_i)^c=(\{x\in\Omega:\forall i=1..n,x\in S_i\})^c=\{x\in\Omega:\exists i=1..n,x\not\in S_i\}=\{x\in\Omega:\exists i=1..n,x\in S_i^c\}=\bigcup\limits_{i=1}^nS_i^c\)（或者 \((\bigcup\limits_{i=1}^nS_i)^c=\bigcap\limits_{i=1}^nS_i^c\) 蕴涵 \((\bigcup\limits_{i=1}^nS_i^c)^c=\bigcap\limits_{i=1}^n(S_i^c)^c=\bigcap\limits_{i=1}^nS_i\)，蕴涵 \(((\bigcup\limits_{i=1}^nS_i^c)^c)^c=(\bigcap\limits_{i=1}^nS_i)^c\)，于是 \((\bigcup\limits_{i=1}^nS_i^c)=(\bigcap\limits_{i=1}^nS_i)^c\)）

\(\blacksquare\)

总结

集合，元素：将一些研究对象放在一起形成集合，这些对象的称为集合的元素

集合的表示：(1) \(S=\{x\in\Omega~|~x 满足性质 P\}\)，(2) \(S=\{x_1,x_2,\dots\}\)

元素与集合的关系：若 x 是集合 S 的元素，那么 \(x\in S\)，否则 \(x\not\in S\)

集合间的关系：S 是 T 的子集，记为 \(S\subset T\)；T 是 S 的超集，记为 \(T\supset S\)；集合 S 和集合 T 相等，记作 \(S=T\)

定理：(1) \(S\subset T\iff T\supset S\)，(2) \(S=T\iff S\subset T,T\subset S\)

特殊的集合：(1) 空集，记为 \(\emptyset\)，(2) 空间，是我们所要研究的对象，记为 \(\Omega\)

集合运算：(1) 集合 S 相对于 \(\Omega\) 的补集，记为 \(S^c=\{x\in\Omega~|~x\notin S\}\)，(2) 集合 S 与集合 T 的并集，记为 \(S\cup T = \{x\in\Omega~|~x\in S\vee x\in T\}\)，(3) 集合 S 与集合 T 的交集，记为 \(S\cap T = \{x\in\Omega~|~x\in S\wedge x\in T\}\)

集合运算推广：\(\bigcup\limits_{i=1}^nS_i=\{x\in\Omega~|~\exists i=1..n,x\in S_i\}\)，\(\bigcap\limits_{i=1}^nS_i=\{x\in\Omega~|~\forall i=1..n,x\in S_i\}\)

集合公理：假设有集合 \(S,T,U\)，那么：

交换律 \(S\cup T=T\cup S\)，\(S\cap T=T\cap S\)

结合律 \(S\cup(T\cup U)=(S\cup T)\cup U\)，\(S\cap(T\cap U)=(S\cap T)\cap U\)

交与并的分配律 \(S\cap(T\cup U)=(S\cap T)\cup(S\cap U)\)，\(S\cup(T\cap U)=(S\cup T)\cap(S\cup U)\)

\((S^c)^c=S\)，\(S\cap S^c=\emptyset\)，\(S\cup\Omega=\Omega\)，\(S\cap\Omega=S\)

德摩根定律：\((\bigcap\limits_{i=1}^nS_i)^c=\bigcup\limits_{i=1}^nS_i^c\)

一级结论

完备分解：\(A=AB\cup AB^c\)

\(AB=(A\cup B^c)(A^c\cup B)(A\cup B)\)

子集性质：若 \(A\subset B\)，那么 \(AB=A,A\cup B=B\)

并集的不相交分解：(1) \(A\cup B=A\cup A^cB\)，(2) \(\bigcup\limits_{i=1}^n A_i=\bigcup\limits_{i=1}^n\left(A_i\bigcap\limits_{j=1}^{i-1}A_j^c\right)\)

定义 \(A-B=AB^c\)，那么 \(AB=B-A^cB\)

练习

假设 \(\Omega=\{1,2,3,4,5,6\}\)，验证：\((A\cup B)^c=A^c\cap B^c\)，\((A\cap B)^c=A^c\cup B^c\)
证明：假设 A 和 B 是两个集合，那么 (1) \(A=(A\cap B)\cup(A\cap B^c)\)，(2) \((A\cap B)^c=(A^c\cap B)\cup(A\cap B^c)\cup(A^c\cap B^c)\)
*证明：\(A\cup\bigcap\limits_{i=1}^∞B_i=\bigcap\limits_{i=1}^∞(A\cup B_i)\)
*康托尔的三角论证方法：指出单位区间 \([0,1]\) 是不可数集合，即 \([0,1]\) 中的数不能排成一个数列
证明：\(A\cup B=A\cup A^cB\)

提示

(1) 假设 \(A=\{2,4,6\},B=\{4,5,6\}\)，于是 \(A^c=\{1,3,5\},B^c=\{1,2,3\}\)

\(A\cup B=\{2,4,5,6\}\)，\((A\cup B)^c=\{1,3\}\)，而 \(A^c\cap B^c=\{1,3\}\)，于是 \((A\cup B)^c=A^c\cap B^c\)

\(A\cap B=\{4,6\}\)，\((A\cap B)^c=\{1,2,3,5\}\)，而 \(A^c\cup B^c=\{1,2,3,5\}\)，于是 \((A\cap B)^c=A^c\cup B^c\)

(2)

根据[集合概率]有 \((A\cap B)\cup(A\cap B^c)=A\cap(B\cup B^c)=A\cap\Omega=A\)

根据[集合公理]和 (1) 的结论有 \((A^c\cap B)\cup(A\cap B^c)\cup(A^c\cap B^c)=(A^c\cap B)\cup B^c=(A^c\cup B^c)\cap(B\cup B^c)=(A^c\cup B^c)\cap\Omega=A^c\cup B^c=(A\cap B)^c\)

(5) \(A\cup B=(AA\cup AB)\cup(A^cA\cup A^cB)=(A\cup AB)\cup A^cB=A\cup A^cB\)

2. 概率模型

概率模型是对不确定现象的数学描述

概率模型的基本构成

样本空间：一个试验的所有可能结果的集合，记为 \(\Omega\)

概率律：概率律为试验结果的集合 A (称为事件)确定一个非负数 \(P(A)\)(称为事件 A 的概率)；而这个非负数刻画了我们对事件 A 的认识或所产生的信念的程度（参见 p21 图 1.2）

样本空间，事件

每一个概率模型都关联着一个试验，这个试验将产生试验结果（样本点？），这些所有可能的结果形成样本空间（记作 \(\Omega\)）

样本空间可由若干个试验结果组成，也可由无限多个试验结果组成

注：不同实验结果（样本点）之间相互排斥

Tip

样本空间：\(\Omega\)
样本点：\(a\in\Omega\)
事件：\(A\in2^\Omega\) （\(2^\Omega\) 为 \(\Omega\) 的幂集）

序贯模型

序贯树形图用以表示所有试验结果的组成（每条从根到叶子的路径确定每个试验结果的“广义向量”）

概率律

概率律：在直观上，它确定了任何结果或任何结果的集合（称为事件）的似然程度；更精确的说，它给每一个事件 A，确定一个数 \(P(A)\)，称为事件 A 的概率，它满足概率公理

概率公理：

非负性：对于所有事件 A，都有 \(P(A)\ge0\)

可加性：对于任意两个互不相交的集合 A 和 B（称 A 和 B 互不相容），都有 \(P(A\cup B)=P(A)+P(B)\)；更一般地，\(A_1,A_2,\dots\) 互不相容，则有 \(P(\bigcup A_i)=P(A_1\cup A_2\cup\dots)=P(A_1)+P(A_2)+\dots=\sum P(A_i)\)

归一化：整个样本空间 \(\Omega\)（称为必然事件）的概率为 1，即 \(P(\Omega)=1\)

概率对频率的解释：\(P=P(A)\) 意味着在大量重复试验中事件 A 出现的频率约为 \(P\)

离散模型

离散概论律：设样本空间由有限个可能的结果组成，则事件的概率可由组成这个事件的试验结果决定；事件 \(\{s_1,s_2,\dots,s_n\}\) 的概率是 \(P(s_i)\) 之和，即 \(P(\{s_1,s_2,\dots,s_n\})=\sum\limits_{i=1}^nP(s_i)\)

（注：\(P(\{s_i\})\) 表示事件 \(\{s_i\}\) 的概率，简记为 \(P(s_i)\)）

离散均匀概论律（古典概型）：设样本空间为 \(\Omega=\{s_1,s_2,\dots,s_n\}\)，并且每个试验结果（样本点）都是等概率的，由归一化公理有 \(P(s_i)=\frac1n\)（\(i=1..n\)）；事件 \(A=\{s_{a_1},s_{a_2},\dots,s_{a_k}\}\) 的概率为 \(P(A)=\frac kn\)

例子

抛掷一枚硬币（双面均匀），有两种(试验)结果：正面向上 \(\{H\}\)，反面向上 \(\{T\}\)，于是样本空间为 \(\Omega=\{H,T\}\)，事件集为 \(\{\{H\},\{T\},\{H,T\},\emptyset\}\)；根据[古典概型]，每个试验结果都是等概率的，又由[可加性]和[归一性]有 \(P(\{H\})=1/2,P(\{T\})=1/2,P(\{H,T\})=P(\{H\}+P\{T\})=1/2+1/2=1,P(\emptyset)=0\)
抛掷 3 枚硬币（双面均匀），有 \(2^3=8\) 种试验结果并且样本空间为：\(\Omega=\{HHH,HHT,HTH,HTT,THH,THT,TTH,TTT\}\)，事件集是大小为 \(2^8=256\) 集合；根据[古典概型]有 \(\forall x\in\Omega,P(x)=\frac1{|\Omega|}=1/8\)，根据[可加性]有 \(P(\{两个正面向上,一个反面向上\})=P(\{HHT,HTH,THH\})=P(\{HHT\})+P(\{HTH\})+P(\{THH\})=3/8\)
抛掷两次有 4 个面的骰子（4面均匀），并且满足[古典概型]，那么 \(P(\{两次点数总和为偶数\})=8/16,P(\{两次点数总和为奇数\})=8/16,P(\{第一次点数与第二次相同\})=4/16\)，\(P(\{第一次点数比第二次点数大\})=6/16,P(\{至少有一次点数等于4\})=7/16\)（用序贯模型能很好计算）

连续模型

例子：

试验的样本空间是区间 \(\Omega=[0,1]\)，那么其子区间(事件) \([a,b]\) 的概率是 \(b-a\)

“会面-等待”的例子，两人成功见面的概率是 \(两人都在等待时间之内构成的面积/样本空间的面积\)

注：其他满足概率公理的连续模型都是合理的模型

例子

若试验的样本空间是 \(\Omega=[0,1]\)，并且满足[连续均匀概率律]，那么 \(\forall0\le a\le b\le1,P([a,b])=(b-a)/1=b-a\)
罗密欧和朱丽叶约会，并且延迟误差为 1h（两个人都不会在约定时间误差范围之外出现，如：只会在 \(9:00~10:00\) 之间出现，而不会在如 \(8:55\) 或 \(10:03\) 出现），那么样本空间可以简单地表示为 \(\Omega=[0,1]\times[0,1]\)（一个二维平面区域）；若约会成功的条件是两人的到达时间差值不大于 15min，那么 \(P(\{约会成功\})=\{|x-y|\le1/4与[0,1]\times[0,1]交集面积\}/\{[0,1]\times[0,1]的面积\}=7/16\)

概率律的性质

不等式1：(1) \(P(AB)\le P(A)\)，(2) \(P(A\cup B)\ge P(A)\)

[子集性质]的推论：若 \(A\subset B\)，则 \(P(A)\le P(B)\)

[并集不相交分解]的推论：(1) \(P(A\cup B)=P(A)+P(A^c\cap B)\)，(2) \(P\left(\bigcup\limits_{i=1}^n A_i\right)=\sum\limits_{i=1}^nP\left(A_i\bigcap\limits_{j=1}^{i-1}A_j^c\right)\)

不等式2：(1) \(\forall k=1..n,P(\bigcap\limits_{i=1}^nA_i)\le P(A_k)\)，(2) \(\forall k=1..n,P(A_k)\le P(\bigcup\limits_{i=1}^nA_i)\le\sum\limits_{i=1}^nP(A_i)\)

(1)

\(P(AB)=1-P(A^c\cup B^c)=1-P(A^c\cup AB^c)=1-P(A^c)-P(AB^c)=P(A)-P(AB^c)\le P(A)\)
\(P(A\cup B)=P(A\cup A^cB)=P(A)+P(A^cB)\ge P(A)\)

(2) \(A\subset B\) 蕴涵 \(A=AB\)，蕴涵 \(P(A)=P(AB)\)，根据(1)的结论，\(P(A)\le P(B)\)

(3)

\(P(A\cup B)=P(A\cup A^cB)=P(A)+P(A^cB)\)
\(P\left(\bigcup\limits_{i=1}^n A_i\right)=P\left(\bigcup\limits_{i=1}^n\left(A_i\bigcap\limits_{j=1}^{i-1}A_j^c\right)\right)=\sum\limits_{i=1}^nP\left(A_i\bigcap\limits_{j=1}^{i-1}A_j^c\right)\)

(4)

\(\blacksquare\)

模型与现实

概率理论可以同来分析显示世界的许多不确定现象，这个过程通常分为两个阶段

在一个适当的样本空间给出概论律，从而建立概率模型（建立现实世界与数学的练习）

在完全严格的概率模型之下进行推导，精算某些时间的概率或推导出一些十分有趣的性质（严格限制概率公理之下的逻辑推理）

其他：内特朗悖论（参见 p 30）

概率论发展简史

公元前.在古希腊和古罗马时期,机会游戏十分盛行.但是这个时期关于游戏的理论还没有发展起来

16世纪.卡尔达诺,一个光彩夺目同时富有争议的意大利数学家出版了第一本关于机会游戏的书,书中给出了掷骰子和扑克游戏中随机事件的概率的正确计算方法

17世纪.费马和帕斯卡之间的通信中提及几个十分有趣的概率问题,推动了这个领域的研究热潮

18世纪.雅各布·伯努利研究了重复投币试验序列并引入了第一条大数定律.这条大数定律为联系理论概率与经验事实打下了基础.后面的数学家,诸如丹尼尔·伯努利、莱布尼茨、贝叶斯、拉格朗日等人对理论概率论的发展和实际应用也作出了巨大贡献.棣莫弗引入了正态分布并证明了第一个中心极限定理

19世纪.拉普拉斯在他的一本很有影响的书中确立了概率论在定量研究领域中的重要地位.同时他本人对概率论作出了许多原创性的贡献,包括推导了更一般形式的中心极限定理.勒让德和高斯将概率论应用到天文预测,并且应用了最小二乘法,他们的工作大大地拓展了概率论的应用领域.泊松出版了一本很有影响的书,其中包括了很多原创性的成果,以他的姓名命名的泊松分布也在其中.切比雪夫和他的学生马尔可夫、李雅普诺夫等研究了极限定理,在这个领域内提高了数学的严格性的标准.在此时期,概率论被认为是自然科学的一部分,它的主要任务是解释物理现象.在这种思想的主导之下,概率被解释为重复试验中相对频率的极限

20世纪.现在已经不再以相对频率作为概率论的基础概念.代之以由科尔莫戈罗夫引入的普遍适用的概率论公理系统.与数学的其他分支一样,在公理系统的基础上发展起来的概率论只依赖于逻辑的正确性,而与实际物理现象的联系无关.然而,由于概率论能够描述和解释现实世界中绝大部分的不确定性现象,因而在科学和工程中,概率论得到广泛应用

总结

概率模型，样本空间，概率律，概率：概率模型关联着一个试验，该试验的所有可能结果的集合称为样本空间，记为 \(\Omega\)；而概率律为试验结果的子集 A 确定一个非负数 \(P(A)\)（\(P:2^\Omega\to\mathbb R\)），该数称为概率（刻画了我们对事件 A 的认识或所产生的信念的程度）

事件：试验结果集的子集（即样本空间的子集）

序贯模型：(1) 序贯树形图：一颗多叉树，每条边表示一个当前情况的可能选择，每条从根到叶子的路径是一种试验结果，(2) 分为两个阶段的试验可以用二维表格表示

概论律/概率公理：

非负性：\(\forall A\in2^\Omega,P(A)\ge0\)

可加性：\(\forall A\cap B=\emptyset,P(A\cup B)=P(A)+P(B)\)（更一般地，\(\forall i\ne j,A_i\cap A_j=\emptyset,P(\bigcup\limits_{i=1}^∞A_i)=\sum\limits_{i=1}^∞P(A_i)\)）

归一化：样本空间 \(\Omega\) 的概率为 1，即 \(P(\Omega)=1\)（蕴涵 \(P(\emptyset)=0\)）

离散模型，离散概率律，离散均匀概率律(古典概型)：假设样本空间由有限个可能的结果组成，则事件的概率由组成这个事件的试验结果决定，称为离散概论律（事件 \(\{s_1,\cdots,s_n\}\) 的概率为 \(P(s_i)\) 之和，即 \(P(\{s_1,\cdots,s_n\})=\sum\limits_{i=1}^nP(s_i)\)）；若一个离散概率模型对每个试验结果(样本点)都有相同的概率，即 \(\forall x\ne y\in\Omega,P(x)=P(y)\)，那么该模型称为离散均匀概率律或古典概型（于是 \(\forall x\in\Omega,P(x)=\frac1{|\Omega|}\)）

连续模型，连续概率律，连续均匀概率律

概率律的性质：假设 \(A,B,A_1,\cdots,A_n\subset2^\Omega\)，那么：

不等式1：(1) \(P(AB)\le P(A)\)，(2) \(P(A\cup B)\ge P(A)\)

[子集性质]的推论：若 \(A\subset B\)，则 \(P(A)\le P(B)\)

[并集不相交分解]的推论：(1) \(P(A\cup B)=P(A)+P(A^c\cap B)\)，(2) \(P\left(\bigcup\limits_{i=1}^n A_i\right)=\sum\limits_{i=1}^nP\left(A_i\bigcap\limits_{j=1}^{i-1}A_j^c\right)\)

不等式2：(1) \(\forall k=1..n,P(\bigcap\limits_{i=1}^nA_i)\le P(A_k)\)，(2) \(\forall k=1..n,P(A_k)\le P(\bigcup\limits_{i=1}^nA_i)\le\sum\limits_{i=1}^nP(A_i)\)

[完备分解]的推论：假设 \(\{s_1,\cdots,s_n\}\) 是 \(\Omega\) 的一个分割，(1) \(P(A)=P(AB)+P(AB^c)\)，(2) \(P(A)=\sum\limits_{i=1}^nP(A\cap S_i)\)

一级结论

交集不等式：(1) \(P(AB)\ge P(A)+P(B)-1\)，(2) \(P\left(\bigcap\limits_{i=1}^nA_i\right)\ge\sum\limits_{i=1}^nP(A_i)-(n-1)\)

容斥原理：(1) \(P(A\cup B)=P(A)+P(B)-P(AB)\)，(2) \(P(A\cup B\cup C)=P(A)+[P(B)-P(AB)]+[P(C)-P(AC)-P(BC)]+P(ABC)\)，(3) \(P\left(\bigcup\limits_{i=1}^nA_i\right)=\sum\limits_{i=0}^n(-1)^{i-1}\sum\limits_{S\subset\{1..n\},|S|=i}P\left(\bigcap\limits_{j\in S}A_j\right)\)

练习

\(P(A)=0.6,P(B)=0.7,P(AB)=0.4\)，计算 \(P(A^cB^c)\)
6 面骰子偶数面出现概率为奇数面大一倍，不同的奇数面或偶数面出现概率相同；建立概论律，并求点数小于 4 的概率
4 面骰子持续抛掷若干次，直到出现偶数面为止；该试验的样本空间是什么？
证明：你参与下棋比赛，并且要与 3 人分别下一场，连续两场才算获胜，因此你成为胜者的概率与比赛次序有关，若与你比赛的选手中，最弱者与你进行第二场比赛，那么你的胜率最大（提示：第 2 场比赛必须胜利）
样本空间 \(\Omega\) 的分割是一个互不相容的事件组 \(\{s_1,\cdots,s_n\}\)，并且 \(\Omega=\bigcup\limits_{i=1}^nS_i\)，\(\forall i\ne j,S_i\cap S_j=\emptyset\)
1. 证明：\(\forall A\subset\Omega,P(A)=\sum\limits_{i=1}^nP(A\cap S_i)\)
2. 证明：\(P(A)=P(AB)+P(AC)+P(AB^cC^c)-P(ABC)\)
证明：\(P(AB^c\cup A^cB)=P(A)+P(B)-2P(AB)\)
证明：(1) \(P(AB)\ge P(A)+P(B)-1\)，(2) \(P(\bigcap\limits_{i=1}^nA_i)\ge\sum\limits_{i=1}^nP(A_i)-(n-1)\)
证明容斥原理：(1) \(P(A\cup B\cup C)=P(A)+P(B)+P(C)-P(AB)-P(AC)-P(BC)+P(ABC)\)，(2) \(P(\bigcup\limits_{i=1}^nA_i)=\sum\limits_{i=0}^n(-1)^{i-1}\sum\limits_{S\subset\{1..n\},|S|=i}P(\bigcap\limits_{j\in S}A_j)\)
*证明概率的连续性：
1. \(A_1,A_2,\dots\) 是单调递增的事件序列（\(A_i\subset A_{i+1}\)），令 \(A=\bigcup\limits_{i=1}^∞A_i\)，证明 \(P(A)=\lim\limits_{n\to∞}P(A_i)\)
2. \(A_1,A_2,\dots\) 是单调减增的事件序列（\(A_i\supset A_{i+1}\)），令 \(A=\bigcap\limits_{i=1}^∞A_i\)，证明 \(P(A)=\lim\limits_{n\to∞}P(A_i)\)
3. 证明：(1) \(P([0,∞))=\lim\limits_{n\to∞}P([0,n])\)，(2) \(\lim\limits_{n\to∞}P([n,∞))=0\)

提示

(1) 以下给出通用解法：\(P(A)=0.6,P(B)=0.7\)，蕴涵 \(P(AB)+P(AB^c)=0.6,P(AB)+P(A^cB)=0.7\)

又由 \(P(AB)+P(AB^c)+P(A^cB)+P(A^cB^c)=1\)

得到线性方程组 \(\begin{bmatrix}1&1&0&0\\1&0&1&0\\1&0&0&0\\1&1&1&1\end{bmatrix}\begin{bmatrix}P(AB)\\P(AB^c)\\P(A^cB)\\P(A^cB^c)\end{bmatrix}=\begin{bmatrix}0.6\\0.7\\0.4\\1\end{bmatrix}\)，解得 \(\begin{bmatrix}P(AB)\\P(AB^c)\\P(A^cB)\\P(A^cB^c)\end{bmatrix}=\begin{bmatrix}0.4\\0.2\\0.3\\0.1\end{bmatrix}\)

于是 \(P(A^cB^c)=0.1\)

(2) 该模型为离散非均匀模型，\(\forall a\in\{1,3,5\},b\in\{2,4,6\},P(\{b\})=2P(\{a\})\)

由[归一化]有 \(9P(\{b\})=3P(\{a\})+3P(\{b\})=1\)，于是 \(P(\{b\})=1/9\)，于是 \(P(\{a\})=2/9\)

于是 \(P(\{1,2,3\})=P(\{1\})+P(\{2\})+P(\{3\})=1/9+2/9+1/9=4/9\)

(3) \(\Omega=\{n\in\mathbb N^+,\{a_1,\cdots,a_n\}:\forall i=1..n-1,a_i\in\{1,3\},a_n\in\{2,4\}\}\)

(4) 设 \(p_i\) 为你与第 i 场比赛的胜率，那么你成为胜者的概率为 \(p_2(p_1+(1-p_1)p_3)=p_2(p_1+p_3-p_1p_3)\)（\(p_1\) 和 \(p_3\) 的次序与胜率无关）

交换 \(p_2,p_1\)，那么胜率变为 \(p_1(p_2+p_3-p_2p_3)\)（此时 \(p_2\) 和 \(p_3\) 的次序与胜率无关）

交换 \(p_2,p_3\)，那么胜率变为 \(p_3(p_1+p_1-p_1p_2)\)（此时 \(p_1\) 和 \(p_2\) 的次序与胜率无关）

若 \(p_2(p_1+p_3-p_1p_3)\le p_1(p_2+p_3-p_2p_3)\) 并且 \(p_2(p_1+p_3-p_1p_3)\le p_3(p_1+p_1-p_1p_2)\)，解得 \(p_2\ge p_1,p_2\ge p_3\)，反之亦然

于是，要想胜率最大，\(p_2\) 一定是最弱者

(5.1) \(\forall i\ne j,S_i\cap S_j=\emptyset\)，蕴涵 \(A(S_i\cap S_j)=A\emptyset\)，蕴涵 \(AS_i\cap AS_j=\emptyset\)

而 \(A=A\Omega=A\bigcup\limits_{i=1}^nS_i=\bigcup\limits_{i=1}^nAS_i\)

于是 \(P(A)=P(\bigcup\limits_{i=1}^nAS_i)=\sum\limits_{i=1}^nP(AS_i)\)

(5.2) \(P(AB)+P(AC)+P(AB^cC^c)-P(ABC)=P(ABC)+P(ABC^c)+P(ABC)+(AB^cC)+P(AB^cC^c)-P(ABC)\)

\(=P(ABC)+P(ABC^c)+(AB^cC)+P(AB^cC^c)=P(A)\)

(6) \(P(AB^c\cup A^cB)=P(AB^c)+P(A^cB)=[P(A)-P(AB)]+[P(B)-P(AB)]=P(A)+P(B)-2P(AB)\)

(7.1) \(P(AB)=P(A)-P(AB^c)=P(A)-[P(B^c)-P(A^cB^c)]=P(A)-P(B^c)+P(A^cB^c)\)

\(=P(A)+P(B)-1+P(A^cB^c)\ge P(A)+P(B)-1\)

(7.2) \(P(\bigcap\limits_{i=1}^nA_i)=P(A_n\bigcap\limits_{i=1}^{n-1}A_i)\ge P(A_n)+P(\bigcap\limits_{i=1}^{n-1}A_i)-1\ge \dots\ge\sum\limits_{i=1}^nP(A_i)-(n-1)\)

(8.1) \(P(A\cup B\cup C)=P(A)+P(A^cB)+P(A^cB^cC)\)

其中

\(P(A^cB)=P(B)-P(AB)\)

\(P(A^cB^cC)=P(C)-P(AB^cC)-P(A^cBC)-P(ABC)=P(C)-[P(AC)-P(ABC)]-[P(BC)-P(ABC)]-P(ABC)\) \(=P(A^cB^cC)=P(C)-P(AC)-P(BC)+P(ABC)\)

于是 \(P(A\cup B\cup C)=P(A)+[P(B)-P(AB)]+[P(C)-P(AC)-P(BC)]+P(ABC)\)

\(=[P(A)+P(B)+P(C)]-[P(AB)+P(AC)+P(BC)]+P(ABC)\)

3. 条件概率

例子

抛掷两次骰子，假设总点数为 9，那么第一次抛掷的点数为 6 的可能性为多少？
在猜字游戏中，假设第一个字母为 t，那么第二个字母为 h 的可能性多大？
假设某人的某些健康指标为阴性，那么这个人得病的概率是多少？
假设雷达上出现一个点，最高点代表原书有一架飞机的可能性多大？

条件概率

条件概率是给定部分信息的基础上对试验结果的一种推断

假设我们已经知道给定的事件 B 发生了，而希望知道另一个给定的事件 A 发生的可能性；因此，我们构造一个新的概论律，它顾及了事件 B 硬件发生的信息，求出任何事件 A 发生的概率

条件概率：给定事件 B 发生之下事件 A 发生的条件概率，记作 \(P(A|B)\)

对于等概率模型，条件概率如此定义是合适的：\(P(A|B)=\frac{事件 A\cap B 的试验结果数}{事件 B 的试验结果数}\)

对上述形式进行推广，得到条件概率的定义：\(P(A|B)=\frac{P(A\cap B)}{P(B)}\)（仅当 \(P(B)>0\)）

非负性：\(P(AB)\ge0,P(B)>0\)，蕴涵 \(P(A|B)=P(AB)/P(B)\ge0\)
归一化：\(P(\Omega|B)=\frac{P(\Omega\cap B)}{P(B)}=\frac{P(B)}{P(B)}=1\)
可加性：假设 \(A_1\) 与 \(A_2\) 是任意不相容的事件，有 \(P(A_1\cup A_2|B)=\frac{P((A_1\cup A_2)\cap B)}{P(B)}=\frac{P((A_1\cap B)\cup(A_2\cap B))}{P(B)}=\frac{P(A_1\cap B)+P(A_2\cap B)}{P(B)}=\frac{P(A_1\cap B)}{P(B)}+\frac{P(A_2\cap B)}{P(B)}=P(A_1|B)+P(A_2|B)\)

\(\blacksquare\)

例子

(离散均匀模型)抛掷 3 次硬币，设 \(A=\{正面次数多于反面\},B=\{第一次是正面\}\)，计算 \(P(A|B)\)：\(P(B)=4/8,P(AB)=(C_2^2+C_2^1)/8=3/8\)，于是 \(P(A|B)=P(AB)/P(B)=3/4\)
(离散均匀模型)抛掷 2 次四面骰子，试验结果等可能，假设 \(X_i\) 是第 i 次抛掷结果的点数，设 \(A=\{\max(X_1,X_2)=m\},B=\{\min(X_1,X_2)=2\}\)，计算 \(P(A|B)\)：借助二维序贯图可以清晰得出 \(P(AB)=\begin{cases}2/16&m=3,4\\1/16&m=2\\0/16&m=1\end{cases}\)，而 \(P(B)=5/16\)，于是 \(P(A|B)=\begin{cases}2/5&m=3,4\\1/5&m=2\\0/5&m=1\end{cases}\)
有两个设计团队，要求分别在一个月内做一个新设计，第一个团队成功，第二个团队成功，至少有一个团队成功的事件分别记为 \(A,B,C\)，并且 \(P(A)=2/3,P(B)=1/2,P(C)=3/4\)，假设只有一个团队完成任务，计算第二个团队成功的概率：\(2/3=P(A)=P(AB)+P(AB^c),1/2=P(B)=P(AB)+P(A^cB),3/4=P(C)=P(AB)+P(A^cB)+P(AB^c)\)，结合[归一化] \(P(AB)+P(A^cB)+P(AB^c)+P(A^cB^c)=1\)，解得 \(P(AB)=5/12,P(AB^c)=1/4,P(A^cB)=1/12,P(A^cB^c)=1/4\)，于是 \(P(A^cB|A^cB\cup AB^c)=\frac{P(A^cB(A^cB\cup AB^c))}{P(A^cB\cup AB^c)}=\frac{P(A^cB)}{P(A^cB)+P(AB^c)}=\frac{1/12}{1/12+1/4}=\frac14\)

条件概率的性质

\(P(A|B)=\frac{P(A\cap B)}{P(B)}\)（仅当 \(P(B)>0\)）

满足概论律：\(P(A|B)\ge0\)，\(P(A_1\cup A_2|B)=P(A_1|B)+P(A_2|B)\)，\(P(\Omega|B)=1\)

\(P(A|B)=\frac{事件 A\cap B 的试验结果数}{事件 B 的试验结果数}\)

\(P(A|\Omega)=\frac{P(A\cap\Omega)}{P(\Omega)}=P(A)\)

\(P(\bigcap\limits_{i=1}^nA_i)=\prod\limits_{i=1}^nP(A_i|\bigcap\limits_{i=1}^{j-1}A_j)\)

注1：某个概率模型满足概论律，意味着该模型拥有所有关于概论律的性质

注2：条件概率可以看成是样本空间 B 上的概论律，即 B 是全空间或必然事件（因而条件概率是 \(\Omega\) 的子集上的概论律）

利用条件概率定义概率模型

注意我们所关注的问题的样本空间是 \(\Omega\) 还是某些假设（\(\Omega\) 的子集）上；样本空间一般比较隐晦而不易发现

序贯树形图：从树上每条边赋予一个概率，其值为父节点的事件发生的条件下子节点代表的事件发生的概率；从根结点到某个结点上边权的连乘积为路径上经过结点的事件同时发生的概率，即 \(P(\bigcap\limits_{i=1}^nA_i)=\prod\limits_{i=1}^nP(A_i|\bigcap\limits_{i=1}^{j-1}A_j)\)

例子

(雷达探测器)雷达探测器工作过程中，若某区域出现飞机，雷达以 \(99\%\) 的概率探测并报警；若该区域没有飞机，雷达以 \(10\%\) 的概率虚假报警；假定废弃以 \(5\%\) 的概率出现在该区域，分别设事件 \(A,B\) 为飞机出现，雷达报警，于是 \(P(B|A)=0.99,P(B|A^c)=0.1,P(A)=0.05\)
1. 飞机没出现而雷达虚假报警的概率为 \(P(A^cB)=P(A^c)P(B|A^c)=(1-0.05)0.1=0.095\)
2. 飞机出现了而雷达没报警的概率为 \(P(AB^c)=P(A)P(B^c|A)=0.05(1-0.99)=0.0005\)
52 张扑克中选择 3 张牌，设 \(\forall i=1..3,A_i=\{前i张不是红桃\}\)，那么 3 张牌都不是红桃的概率为 \(P(A_3)=P(A_1A_2A_3)=P(A_1)P(A_2|A_1)P(A_3|A_1A_2)=\frac{39}{52}\cdot\frac{38}{51}\cdot\frac{37}{50}\)
有 4 个研究生，12 个本科生，将这 16 人随机分为 4 组，每组 4 人；设 \(\forall i=1..3,A_i=\{前i+1个研究生分在不同的组\}\)，那么这 4 个研究生都不在同一组的概率为 \(P(A_3)=P(A_1A_2A_3)=P(A_1)P(A_2|A_1)P(A_3|A_1A_2)=\frac{12}{15}\cdot\frac{8}{14}\cdot\frac{4}{13}\)
(蒙提·霍尔问题)有三个封闭的门，其中之一有奖品(随机)，你选定一扇门后，你朋友会打开一扇(无奖品的)空门，并且你有“坚持原来的选择”，“改选另一扇没打开的门”两种选择，以下有三种策略
1. 坚持原来的门：概率是 \(1/3\)
2. 改选另一扇没打开的门：\(P(\{奖品在指定的门\cap选另一扇没打开的门\}\cup\{奖品不在指定的门\cap选另一扇没打开的门\})=(1/3)\cdot0+(2/3)\cdot1\)
3. 首选 1 号门，若 2 号是空门，则坚持选择；若 3 号是空门，则选择 2 号门：信息不充分，概率无法计算

总结

条件概率：假设事件 B 发生，那么事件 A 发生的概率称为条件概率，定义为 \(P(A|B)=\frac{P(AB)}{P(B)}\)（\(P(B)>0\)）；在此概率模型下，事件 B 是全空间或必然事件

条件概率的性质(乘法规则)：(1) \(P(AB|\Omega)=P(A|\Omega)P(B|A)\)，(2) \(P(ABC|\Omega)=P(A|\Omega)P(B|A)P(C|AB)\)，(3) \(P\left(\bigcap\limits_{i=1}^nA_i\right)=\prod\limits_{i=1}^nP\left(A_i\Bigg|\bigcap\limits_{j=1}^{i-1}A_j\right)\)

一级结论

\(P(A|B)=\frac{\{同时为A和B 的试验结果的总数\}}{\{B的试验结果的总数\}}\)

\(P(A\cap B|B)=P(A|B)\)

\(P(A|B)\) 可以读作“若 B 发生，那么 A 发生的概率” 或者“B 发生的原因是 A 的概率”

练习

抛掷两次 6 面骰子，36 种结果等概率
1. 计算抛出的点数“成对”的概率 \(P(A)\)
2. 若点数之和不大于 4，计算抛出的点数“成对”的概率 \(P(A|E)\)
3. 计算至少一个骰子点数为 6 的概率 \(P(B)\)
4. 若抛掷的两个点数不同，计算至少一个骰子点数为 6 的概率 \(P(B|F)\)
抛掷两次不均匀骰子，证明：在第一次正面朝上的条件下两次都是正面的概率，不小于在两次中至少有一次正面朝上的条件下两次都是正面的概率（如何推广这个推理？）
有 3 枚硬币，第一枚两面都是正面，第二枚两面都是反面，第三枚是普通的硬币；抛掷其中一枚硬币，若正面朝上，计算这枚硬币有反面的概率
一批产品有 100 件，从中随机抽取 4 件产品进行检查，其中若有 1 件不合格，则拒绝这批产品；若产品中有 5 件不合格品，这批产品被拒绝的概率是多少？
证明：假设 \(A,B\) 是两个事件，\(P(B)>0\)，那么 \(P(A\cap B|B)=P(A|B)\)

提示

(1)

\(P(A)=P(\{(i,i)|i=1..6\})=6/36\)

\(P(A|E)=P(AE)/P(E)=\frac{|\{(1,1),(2,2)\}|}{|\{(1,1..3),(2,1..2),(3,1)\}|}=2/6\)

\(P(B)=P(\{(1..5,6),(6,1..6)\})=11/36\)

\(P(B|F)=P(BF)/P(F)=\frac{|\{(1..5,6),(6,1..5)\}|}{2!\binom62}=1/3\)

(2) 记第 \(i=1..2\) 次正面朝上的事件为 \(A_1,A_2\)

\(P(A_1A_2|A_1)=\frac{P((A_1A_2)\cap A_1)}{P(A_1)}=\frac{P(A_1A_2)}{P(A_1)}\)

\(P(A_1A_2|A_1\cup A_2)=\frac{P((A_1A_2)\cap(A_1\cup A_2))}{P(A_1\cup A_2)}=\frac{P(A_1A_2)}{P(A_1\cup A_2)}\)

\(A_1\subset A_1\cup A_2\)，蕴涵 \(P(A_1)\le P(A_1\cup A_2)\)

于是 \(P(A_1A_2|A_1)\ge P(A_1A_2|A_1\cup A_2)\)

(3) 设第 \(\forall i=1..3\) 枚硬币被选择的事件为 \(A_i\)，硬币朝上的事件为 E

\(P(A_3|E)=\frac{|A_3E|}{|E|}=1/3\)

(4) 设第 \(\forall i=1..4\) 次检查，不合格品未被查出的事件

\(P(A_1A_2A_3A_4)=P(A_1)P(A_2|A_1)P(A_3|A_1A_2)P(A_4|A_1A_2A_3)=\frac{95}{100}\cdot\frac{94}{99}\cdot\frac{93}{98}\cdot\frac{92}{97}=0.812\)

(5) \(P(A\cap B|B)=P(AB\cap BB)/P(B)=P(AB)/P(B)=P(A|B)\)

4. 全概率定理，贝叶斯公式

全概率定理

设 \(S_1,S_2,\dots,S_n\) 是一组互不相容的事件，形成样本空间的一个分割（有 \(\forall i\ne j,S_i\cap S_j=\emptyset\)，\(\Omega=\bigcup\limits_{i=1}^nS_i\)），那么：

\(\forall A\subset\Omega,P(A)=\sum\limits_{i=1}^nP(S_i)P(A|S_i)\)（\(P(S_i)>0\)）

注：全概率定理可以建立在一棵以事件 B 为根（样本空间）的序贯树形图

注2：全概率定理也具有一 PMF 或 PDF 表示的形式

应用（令 \(B=\Omega\)）：通过联合 PMF 得到边缘 PMF；或通过联合 PDF 得到边缘 PDF（无论是否具有条件；详见第 2/3 章）

\(\forall i\ne j,S_i\cap S_j=\emptyset\)，蕴涵 \((AS_i)\cap(AS_j)=\emptyset\)

又由 \(\Omega=\bigcup\limits_{i=1}^nS_i\)，于是：

\(P(A)=P\left(A\bigcup\limits_{i=1}^nS_i\right)=P\left(\bigcup\limits_{i=1}^nAS_i\right)=\sum\limits_{i=1}^nP(AS_i)=\sum\limits_{i=1}^nP(S_i)P(A|S_i)\)

\(\blacksquare\)

例子

(棋类比赛)你参加棋类比赛，第一/二/三类棋手的比例分别是 \(50\%,25\%,25\%\)，你赢它们的概率分别是 \(0.3,0.4,0.5\)，\(\forall i=1..3\) 设你与第 i 类选手比赛的事件分别为 \(A_i\)，你胜出的事件为 B，那么你一场随机比赛的胜率是 \(P(B)\sum\limits_{i=1}^3P(A_i)P(B|A_i)=0.5\cdot0.3+0.25\cdot0.4+0.25\cdot0.5=0.375\)
抛掷一次均匀 4 面骰子，若出现点数 1 或 2，可以再抛掷一次，计算抛掷点数总和不小于 4 的概率：
1. 记 \(\forall i=1..4,A_i\) 为第一次抛掷点数为 i 的事件，B 为所有抛掷结束后点数不小于 4 的事件；那么 \(P(B)=\sum\limits_{i=1}^4P(A_i)P(B|A_i)=(1/4)\cdot(2/4)+(1/4)\cdot(3/4)+(1/4)\cdot0+(1/4)\cdot1=9/16\)
2. [陷阱]：试验结果是不均匀的，也就是说，这里不能靠样本点的个数来计算概率
(动态规划)爱丽丝每周能跟得上课程的概率依赖于上一次是否跟得上的情况，若上一周跟得上，那么这周以 \(0.8\) 的概率跟得上课程，否则跟得上课程的概率为 \(0.4\)；假设第 0 周跟得上课程，计算第 3 周跟得上课程的概率
1. 令 \(A_i\) 为爱丽丝跟得上课程的事件，那么 \(\begin{cases}P(A_3)=P(A_2)P(A_3|A_2)+P(A_2^c)P(A_3|A_2^c)=0.8P(A_2)+0.4P(A_2^c)\\P(A_2)=P(A_1)P(A_2|A_1)+P(A_1^c)P(A_2|A_1^c)=0.8P(A_1)+0.4P(A_1^c)\\P(A_1)=0.8\end{cases}\)
2. 解得 \(P(A_3)=0.688\)

造成一个结果可能源于多方面的原因（事件），这些原因互不相交，并且除了这些原因之外没有任何事件能导致这种结果

如果我们知道这些原因的发生概率，以及这些原因驱使下结果发生的概率，那么我们可以间接得到一个结果的发生源自于任意一个原因的概率，这就是贝叶斯推理

另外，利用贝叶斯推理，可以找到某个结果或事件发生的最可能原因

推理和贝叶斯准则

设 \(S_1,S_2,\dots,S_n\) 是一组互不相容的事件，形成样本空间的一个分割，那么：

那么 \(\forall i=1..n,A\subset\Omega,P(S_i|A)=\frac{P(AS_i)}{P(A)}=\frac{P(S_i)P(A|S_i)}{\sum\limits_{j=1}^nP(S_j)P(A|S_j)}\)

应用：贝叶斯准则可以用来进行因果推理，计算造成结果 A 的可能原因 \(S_i\) 的概率

注：\(P(S_i|A)\) 称为后验概率，\(P(S_i)\) 称为先验概率

\(\forall i=1..n,P(AS_i)=P(A)P(S_i|A)\)

于是 \(P(S_i|A)=\frac{P(AS_i)}{P(A)}=\frac{P(S_i)P(A|S_i)}{\sum\limits_{j=1}^nP(S_j)P(A|S_j)}\)，得证

另外，\(P(A)=P\left(A\bigcup\limits_{j=1}^nS_j\right)=\sum\limits_{j=1}^nP(A)P(S_j|A)\)，于是 \(\sum\limits_{j=1}^nP(S_j|A)=1\)

\(\blacksquare\)

例子

[1.3例子“雷达探测器”]中，\(P(飞机出现|雷达报警)=P(A|B)=\frac{P(AB)}{P(B)}=\frac{P(A)P(B|A)}{P(A)P(B|A)+P(A^c)P(B|A^c)}=\frac{0.05\cdot0.99}{0.05\cdot0.99+0.95\cdot0.1}\approx0.3426\)（即雷达报警的原因是飞机出现的概率为 0.3426）
[1.4例子“棋类比赛”]中，\(P(你的对手是第一类棋手|你已获胜)=P(A_1|B)=\sum\limits_{i=1}^n\frac{P(A_1)P(B|A_1)}{P(A_i)P(B|A_i)}=0.4\)
(假阳性之谜)某疾病的检出率为 \(0.95\)（即：若某人有这种病，那么检验结果为阳性的概率是 \(0.95\)，否则检验结果为阴性的概率是 \(0.95\)），假设某一人群中患病的概率为 \(0.001\)，从这群人随机抽取一人进行检测，若结果为阳性，计算该人患病的概率
1. 设事件 S 为该人患病，事件 A 为该人检验为阳性，那么 \(P(A|S)=\frac{P(S)P(A|S)}{P(S)P(A|S)+P(S^c)P(A|S^c)}\approx0.0187\)
2. 可以发现，尽管检验方法非常精确，但是被检测阳性的人依然不大可能患这种病

总结

全概率定理：假设 \(S_1,\cdots,S_n\) 是一组互不相容的事件，形成样本空间的一个分割（\(\forall i\ne j,S_i\cap S_j=\emptyset\)，\(\Omega=\bigcup\limits_{i=1}^nS_i\)），那么 \(\forall A\subset\Omega,P(A)=\sum\limits_{i=1}^nP(S_i)P(A|S_i)\)（\(\forall i=1..n,P(S_i)>0\)）

贝叶斯准则：假设 \(S_1,\cdots,S_n\) 是一组互不相容的事件，形成样本空间的一个分割，那么 \(\forall i=1..n,A\subset\Omega,P(S_i|A)=\frac{P(AS_i)}{P(A)}=\frac{P(S_i)P(A|S_i)}{\sum\limits_{j=1}^nP(S_j)P(A|S_j)}\)

练习

爱丽丝在文件柜的若干个抽屉中寻找她的学期报告，学期报告在第 i 个抽屉的概率为 \(p_i>0\)，即便报告真的在第 i 个抽屉内，她找到报告的概率是 \(d_i\)；假设爱丽丝在第 k 个抽屉内找却没找到，证明学期报告在第 i 个抽屉的概率为：\(\begin{cases}\frac{p_k(1-p_k)}{1-p_kd_k}&i=k\\\frac{p_k}{1-p_ip_i}&i\ne k\end{cases}\)

提示

5. 独立性

独立性

事件 A 独立于事件 B，当且仅当 \(P(A|B)=P(A)\) （\(P(B)=0\) 时 \(P(A|B)\) 无定义）

我们称 A 和 B 是相互独立的事件（A 独立于 B 蕴含着 B 独立于 A）；换句话说，B 的发生，不会对 A 的发生与否提供任何信息，反之亦然

等价条件：\(P(A\cap B)=P(A)P(B)\)（\(P(A),P(B)>0\)）

注：\(P(A),P(B)>0\)，A 和 B 互不相容（\(A\cap B=\emptyset\)），蕴含着 A 和 B 非独立（除非 \(P(A)=0\) 或 \(P(A)=1\)）

例题

参见 p49

条件独立

条件独立：A 和 B 在给定 C 之下条件独立，当且仅当 \(P(A\cap B)=P(A|C)P(B|C)\) （由于条件概率满足概论律）

又由 \(P(A\cap B|C)=\frac{P(A\cap B\cap C)}{P(C)}=\frac{P(C)P(B|C)P(A|B\cap C)}{P(C)}=P(B|C)P(A|B\cap C)\)，

有 \(P(A|C)=P(A|B\cap C)\)（仅当 \(P(B|C)\ne0\)），该式为条件独立的等价式

注：A 和 B 两个事件相互独立并不包含条件独立，反过来也是如此？

补充：A 和 B 相互独立而且 C 满足 \(P(C),P(A|C),P(B|C)>0,A\cap B\cap C=\emptyset\)，从而 \(P(A\cap B|C)=0,P(A|C)P(B|C)>0\)，那么 A 和 B 不是条件独立的（给定 C）

独立性（总结）

两个事件 A 和 B 称为相互独立的，如果它们满足 \(P(A\cap B)=P(A)P(B)\)

若 B 还满足 \(P(B)>0\)，则独立性等价于 \(P(A|B)=P(A)\)

若 A 与 B 相互独立，则 A 与 \(B^c\) 也相互独立

两个事件 A 和 B 称为给定事件 C 的条件下条件独立，如果 \(P(A\cap B|C)=P(A|C)P(B|C)\)（仅当 \(P(C)>0\)）

若还满足 \(P(B\cap C)>0\)，则 A 和 B 在给定 C 的条件下的条件独立性与该条件等价：\(P(A|B\cap C)=P(A|C)\)

独立性不蕴涵条件独立性，反之亦然

一组事件的独立性

\(A_1,\dots,A_n\) 是相互独立的事件，当且仅当对于所有 I 的子集 \(S\subset2^I\)（\(I=\{1,\dots,n\}\)），都有 \(P(\bigcap\limits_{i\in S}A_i)=\prod\limits_{i\in S}P(A_i)\)

注：n 个事件相互独立，蕴涵它们两两独立；反之不总是成立

推论：若 \(S,T\in2^I,S\cap T=\emptyset\)，那么 \(P(\bigcup\limits_{i\in S}A_i|\bigcap\limits_{i\in T}A_i)=P(\bigcup\limits_{i\in S}A_i)\) ？

可靠性

在由多个元件组合成的一个复杂系统中,通常假定各个元件的表现是相互独立的；做了这样的假定以后,计算和分析将变得十分简单

？

独立试验，二项概率

独立试验序列：由一系列独立并且相同的小试验组成的试验

伯努利试验序列：每个阶段的小试验只有两种可能结果的试验（如：抛硬币）

伯努利试验序列，二项概率

以抛硬币为例，在长度为 n 的独立伯努利试验序列中，设 \(P(i)=P(n 次抛掷中有 i 次出现正面)\)，

若硬币朝上的概率为 p，那么 \(P(i)=\binom nip^i(1-p)^{n-i}\) （\(i=0..n\)）

满足 \(\sum\limits_{i=0}^nP(i)=\sum\limits_{i=0}^n\binom nip^i(1-p)^{n-i}=1\)

例子：参见 p58

总结

独立性：

6. 计数法

计数法

计算在计算概率的时候,通常需要数清楚有关事件中的试验结果数(或基本事件数)；我们已经遇到两种情况，需要这样的计数法

若样本空间 \(\Omega\) 只有有限个等可能的试验结果（等概率模型），那么事件 A 的概率为 \(P(A)=\frac{A 中元素的数目}{\Omega 中元素的数目}\)

若 A 中每一个试验结果具有相同的概率 p 时，那么 \(P(A)=p\cdot (A 中元素的数目)\)

计数准则（俗称“乘法准则”）

有 r 个阶段组成的试验，如果满足如下两个条件：

第一个阶段有 \(n_1\) 种可能的结果

第 \(i-1\) 个阶段的任何一个结果，在第 i 阶段有 \(n_i\) 个结果

那么 r 个阶段的试验中一个有 \(\prod\limits_{i=1}^rn_i\) 个试验结果

n 选 k 排列

n 选 k 排列：从 n 个不同对象所组成的集合中，按顺序选取 k 个对象的方法数为 \((n)_k=\prod\limits_{i=n-k+1}^ni=n(n-1)\dots(n-k+1)=\frac{n!}{(n-k)!}\) （\((n)_k=0\)，仅当 \(k>n\)）

特别地：\((n)_k=n!\)，称之为排列

注：符号 \((n)_k\) 似乎并不通用

组合

n 选 k 的排列集合中将每个排列归并到对应的组合中，其中每个组合对应 \(k!\) 种不同的排列

因此，从 n 个元素的集合中选 k 个元素的组合数为 \(\frac{(n)_r}{k!}=\frac {n!/(n-k)!}{k!}\)，记为 \(\binom nk\)

例1：由于 \(\sum\limits_{i=0}^n\binom nip^i(1-p)^{n-i}=1\)；若 \(p=\frac12\)，则 \(\sum\limits_{i=0}^n\binom ni=2^n\)

例2：有 n 个人，从中选取 k 个人组成俱乐部，其中 1 人为主任，其余 \(k-1\) 个成员互不区分，计算组合数；有两种方式：(1)先选主任，再选成员，方案数为 \(n\sum\limits_{i=0}^{n-1}\binom ni=n2^{n-1}\)；(2) 先把所有 k 个人选上，再挑选主任，方案数为 \(\sum\limits_{i=1}^n\binom nii\)；因此 \(n2^{n-1}=\sum\limits_{i=1}^n\binom nii\)

推论：\(\sum\limits_{i=0}^ni^2\binom ni=n(n+1)2^{n-2}\)；猜想：\(\sum\limits_{i=0}^ni^k\binom ni\ge n^k2^{n-k}\)

注：组合等价于从 n 元素集合中选出元素个数为 k 的子集

分割

组合可看做从 n 元素集合中选出元素个数为 k 的子集；每个组合可以看成将集合分为两个子集的一个分划，其中一个子集元素个数为 k，另一个子集的为其补集，其元素个数为 \(n-k\)

推广组合的定义：给定元素个数为 n 的集合，将其分解为 r 个互不相交的子集（第 i 个子集个数为 \(n_i\) (\(n_i\ge0\))；满足 \(\sum\limits_{i=1}^rn_i=n\)），此方案数定义为分割数，或 多项式系数

分解过程分为 \(r-1\) 个阶段（分为 r 个阶段亦可），每个阶段都有一个“主集合”，当前阶段需要从“主集合”中选出 \(n_i\) 个元素，并将它们从“主集合”中排除，因而每个阶段的方案数为 \(\binom{n-s_{i-1}}{n_i}\)（其中 \(s_i=\sum\limits_{j=1}^{i}n_j\)）；因而总方案数为 \(\prod\limits_{i=1}^{r-1}\binom{n-s_{i-1}}{n_i}=\prod\limits_{i=1}^{r-1}\frac{(n-s_{i-1})!/(n-s_i)!}{n_i!}=\frac{(n-s_0)!/(n-s_{r-1}!)}{\prod\limits_{i=1}^{r-1}n_i!}=\frac{n!}{\prod\limits_{i=1}^rn_i!}\)

所以，记多项式系数为 \(\binom n{n_1,\dots,n_r}=\frac{n!}{\prod\limits_{i=1}^rn_i!}\)

例题

详见 p65

计数法汇总

n 个对象的排列数：\(n!\)

n 个对象中取 k 个对象的排列数：\((n)_k=\frac {n!}{(n-k)!}\)

n 个对象中取 k 个对象的组合数：\(\binom nk=\frac{n!/(n-k)!}{k!}\)

将 n 个对象分成 r 个组的分割数：\(\binom n{n_1,\dots,n_r}=\frac{n!}{\prod\limits_{i=1}^rn_i!}\) （其中第 i 组有 \(n_i\) 个对象）

1.样本空间&概率

1. 集合

2. 概率模型

3. 条件概率

4. 全概率定理，贝叶斯公式

5. 独立性

6. 计数法

7. 小节和讨论