2.离散随机变量
约定与记号
- 用大写字母表示随机变量,小写字母表示实数
graph LR
1(Ω) -->|X| 2(R)
-->|pX| 3(R)
-->|E| 4(R)
2-->|g| 5(R)
1-->|Y| 5
2-->|"E[X]"| 4
4-->|var| 6(R)
4-->|σ| 7(R)
4-->|"E[X^n]"| 8(R)
1. 基本概念
在许多概率模型中试验结果是数值化的,例如许多仪器的仪表板的读数以及股价等.也有其他一些例子中的试验结果不是数值化的, 但是这些试验结果与某些数值相联系
当我们讨论这些数值的时候,通常给这些数值确定概率;我们可以通过随机变量实现这个任务
随机变量
现在设在某个试验中, 所有可能的试验结果构成一个样本空间.对于样本空间中的每一个可能的试验结果, 关联着一个特定的数
这种试验结果与数的对应关系形成随机变量
我们将试验结果所对应的数称为随机变量的取值
换句话说,随机变量是试验结果的实值函数;即 \(X~:~\Omega\to\mathbb R\)
注:这个映射过程就像离散化一样
例:抛 5 次硬币,出现正面的次数可以是随机变量,而长度为 5 的试验结果的序列不是随机变量(因为此序列不是一个实数)
随机变量相关概念
在一个试验的概率模型之下
- 随机变量是试验结果的实值函数
- 随机变量的函数定义了另一个随机变量
- 对于一个随机变量,我们可以定义一些平均量,例如均值和方差
- 可以在某事件或某随机变量的条件之下定义一个随机变量
- 存在一个随机变量与某事件或某随机变量相互独立的概念
离散型:若一个随机变量的值域(随机变量的取值范围)为一个有限集合或最多为可数无限集合,则称这个随机变量为离散的
非离散型:若一个随机变量可以取到不可数无限多个数,则这个随机变量就不是一个离散的随机变量
离散随机变量
在一个试验的概率模型之下
- 离散随机变量是试验结果的一个实值函数,但是它的取值范围只能是有限多个值或可数无限多个值
- 一个离散随机变量有一个分布列,它对于随机变量的每一个取值,给出一个概率
- 离散随机变量的函数也是一个离散随机变量,它的分布列可以从原随机变量的分布列得到
Tip
- 试验结果空间是样本空间的划分
- 离散随机变量空间也是样本空间的一个划分
- 完备事件集(事件之间互不相容,其并集为样本空间)同样也是样本空间的一个划分
- 因而,样本空间有三类划分:试验结果空间,完备事件集,离散随机变量空间
2. 分布列
分布列(PMF,probability mass function)
离散随机变量的分布列提供该随机变量的取值概率的信息(随机变量的最重要特征),记 \(p_X\) 为随机变量 X 的分布列
若 x 为随机变量 X 的取值,则 X 取值为 x 的概率定义为事件 \(\{X=x\}\) 的概率(即所有与 x 对应的试验结果所组成的事件的概率),记为 \(p_X(x)=P(\{X=x\})\)(或 \(p_X(x)=P(X=x)\))
也即 \(p_X~:~x\to\mathbb p\)(不规范的记号;类似于“权值函数”)
性质1:\(\sum\limits_{x\in D_{p_X}}p_X(x)=1\)(由于概论律的 可加性 和 归一化公理)
性质2:对于所有 \(x_1\ne x_2\),\(\{X=x_1\}\) 与 \(\{X=x_2\}\) 互不相容;\(\{\{X=x\}~|~x\in D_{p_X}\}\) 形成了样本空间的分割
性质3:\(P(X\in S) = \sum\limits_{x\in S}p_X(x)\)
随机变量 X 的分布列的计算
对于所有随机变量 X 的值 x
- 找出与事件 \(\{X=x\}\) 相对应的所有试验结果
- 将相应的试验结果的概率相加得到 \(p_X(x)\)
伯努利随机变量
考虑一场试验,该试验具有两种试验结果 A 或 B;设 A 的概率为 p,而 B 的概率为 \(1-p\)
伯努利随机变量 X 在试验结果为 A 时取值为 1,试验结果为 B 时取值为 0,即 \(X=\begin{cases}1&试验结果为A\\0&试验结果为B\end{cases}\)
它的分布列为:\(p_X(k)=\begin{cases}p&k=1\\1-p&k=0\end{cases}\)
例:抛硬币;一个人的健康或不健康状态;任意时刻,一台电话机的待机状态或使用状态
注:二项随机变量是多次独立伯努利随机变量(即伯努利随机变量的推广)
二项随机变量
考虑 n 场相互独立的试验,每次试验具有两种试验结果 A 或 B;设 A 的概率为 p,而 B 的概率为 \(1-p\)
n 场试验结束后,整个试验才结束
二项随机变量 X 定义为 n 次试验出现试验结果 A 的次数(注:由于用自然语言描述 X 比使用分段函数符号表示更方便,所以此处略去对后者的表达)
那么 X 的分布列为 \(p_X(k)=P(X=k)=\binom nkp^k(1-p)^{n-k}\) (\(k=0..n\))
性质1:满足归一化公理 \(\sum\limits_{i=0}^n\binom nip^i(1-p)^{n-i}=1\)
性质2:\(p=\frac12\) 时,分布列关于 \(k=\frac n2\) 对称;\(p<\frac12\) 时,分布偏向 \(k=0\);\(p>\frac12\) 时,分布偏向 \(k=n\)
性质3:二项分布列总是先增后减的
几何随机变量
考虑无穷多场相互独立的试验,每次试验具有两种试验结果 A 或 B;设 A 的概率为 p,而 B 的概率为 \(1-p\)
整个试验在第 k 场结束,当且仅当 前 \(k-1\) 场试验结果为 B,第 k 场试验结果为 A
几何随机变量 X 定义为试验结束所需的子试验场数(即第 1 次出现试验结果 B 所需的试验场数)
那么 X 的分布列为 \(p_X(k)=p(1-p)^{k-1}\) (\(k=1,2..\))
性质:满足归一化公理:\(\sum\limits_{i=1}^∞p_X(i)=\sum\limits_{i=1}^∞p(1-p)^{i-1}=p\sum\limits_{i=0}^∞(1-p)^i=p\frac1{1-(1-p)}=1\)
注:该试验可以解释为 独立试验序列中的一次试验“成功”
注2:该试验属于 伯努利试验序列
例:连续抛硬币直到出现正面;在多次测试后通过考试
泊松随机变量
泊松随机变量 X 的分布列定义为 \(p_X(k)=e^{-\lambda}\frac{\lambda^k}{k!}\)(\(k=0,1,2..\);对于任意 \(\lambda\))
性质1:满足归一化公理 \(\sum\limits_{i=0}^∞p_X(i)=\sum\limits_{i=0}^∞e^{-\lambda}\frac{\lambda^i}{i!}=e^{-\lambda}\sum\limits_{i=0}^∞\frac{\lambda^i}{i!}=e^{-\lambda}e^{\lambda}=1\)
性质2:\(\lambda\le1\) 时,分布列单调递减;\(\lambda>1\) 时,分布列先增后减
性质3:若记 \(\lambda=np\),n 很大,而 p 很小(\(n\to+∞, p\to0\));泊松随机变量的分布列能很好的逼近二项随机变量的分布列:\(e^{-\lambda}\frac{\lambda^k}{k!}\approx\binom nkp^k(1-p)^{n-k}\)(\(k=0..n\))
问:分布列 \(p_X(k)=\frac{(-1)^{k-1}x^k}{\ln(1+\lambda)k}\)(其中 \(|\lambda|<1\) 或 \(\lambda=1\))是否有定义
3. 随机变量的函数
随机变量函数
设 X 是随机变量,对 X 施行变换 \(Y=g\circ X=g(X)\)(其中 \(g\circ X~:~\Omega\to\mathbb R\to\mathbb R\))
若 X,Y 的分布列分别为 \(p_X,p_Y\),那么 \(p_Y(y)=\sum\limits_{x\in\{x|g(x)=y\}}p_X(x)\)
再根据归一化定理有 \(\sum\limits_{y\in D_{p_Y}}p_Y(y)=\sum\limits_{x\in\{x|g(x)\in D_{p_Y}\}}p_X(x)=1\),\(\sum\limits_{x\in D_{p_X}}p_X(x)=1\)
因而 \(\{x|g(x)\in D_{p_Y}\}=D_{p_X}\)
4. 期望,均值,方差
期望
随机变量 X 的期望给出了能将其分布列综合起来的信息
设随机变量 X 的分布列为 \(p_X\),那么 X 的期望值(又称 期望 或 均值)定义为 \(E[X]=\sum\limits_{x\in D_{p_X}}x\cdot p_X(x)\)
注1:\(\sum\limits_{x\in D_{p_X}}x\cdot p_X(x)\) 有意义,仅当 \(\sum\limits_{x\in D_{p_X}}|x|\cdot p_X(x)<∞\)
注2:通常将 X 的均值解释为 X 的代表值,它位于 X 的值域中间的某一点;更确切地,可以将分布的均值看成分布列的“重心”;特别地,当 X 的分布列有对称中心时,那么这个对称中必为 X 的均值(设 c 为 X 的对称中心,有 \(\sum\limits_{x\in D_{p_X}}(x-c)p_X(x)=0\),进而 \(c=\sum\limits_{x\in D_{p_X}}(x-c)p_X(x)\),即 \(E[X]\) 等于 X 的对称中心)
注3:期望的计算方法最终取决于 X 的分布列
推论:伯努利随机变量的期望为 \(p\);二项随机变量的期望为 \(\sum\limits_{i=0}^ni\cdot \binom nip^i(1-p)^{n-i}=np\);几何随机变量的期望为 \(\sum\limits_{i=1}^∞i\cdot p(1-p)^{i-1}=\frac1p\);泊松随机变量的期望为 \(\sum\limits_{i=0}^ni\cdot e^\lambda\frac{\lambda^i}{i!}=\lambda\)
期望是随机变量及其分布列的主要特征;此外还有其他重要的特征量,如如随机变量 X 的二阶矩定义为随机变量 \(X^2\) 的均值
n 阶矩
n 阶矩:随机变量 X 的 n 阶矩定义为 \(X^n\) 的期望值,即 \(E[X^n]\)
注:期望 \(E[X]\) 又可称为 1 阶矩
方差,标准差
方差:随机变量 X 的方差定义为 \(\text{var}(X)=E[(X-E[X])^2]\);方差提供了 X 在期望周围分散程度的一个测度(\(\text{var}(X)\ge0\))
记 \(\tilde X=X-E[X]\),有 \(\text{var}(X)=E[\tilde X^2]\)
标准差:\(\sigma_X=\sqrt{\text{var}(X)}\)
性质:\(\text{var}(X)=0\),当且仅当 对于所有 \(p_X(x)>0\) 的 x 都有 \(x=E[X]\);换句话说 \(p_X(E[X])=1\)
令 Y 为随机变量 X 的函数,即 \(Y=g(X)\)
那么 Y 的期望 \(E[g(X)]=E[Y]=\sum\limits_{y\in D_{p_Y}}y\cdot p_Y(y)=\sum\limits_{y\in D_{p_Y}}y\sum\limits_{x\in\{x~|~g(x)=y\}}p_X(x)\)
\(=\sum\limits_{y\in D_{p_Y}}\sum\limits_{x\in\{x~|~g(x)=y\}}g(x)p_X(x)=\sum\limits_{x\in\{x~|~g(x)\in D_{p_Y}\}}g(x)p_X(x)=\sum\limits_{x\in D_{p_X}}g(x)p_X(x)\)
因此 \(E[g(X)] = \sum\limits_{x\in D_{p_X}}g(x)p_X(x)\)
\(\blacksquare\)
随机变量的函数的期望计算规则
随机变量 X 的函数 \(g(X)\) 的期望为 \(E[g(X)] = \sum\limits_{x\in D_{p_X}}g(x)p_X(x)\)
注:这意味着计算 \(g(X)\) 的期望不必刻意计算 \(g(X)\) 的分布列(即便期望的定义是基于分布列的)
推论:
- n 阶矩 \(E[X^n]=\sum\limits_{x\in D_{p_X}}x^np_X(x)\)
- 方差 \(\text{var}(X)=E[(X-E[X])^2]=E[X^2]-E[X]^2\)
- \(g(X)=aX+b\) 的期望 \(E[aX+b]=aE[X]+b\)
- \(g(X)=aX+b\) 的方差 \(\text{var}(aX+b)=a^2\text{var}(X)\)
- 记 \(\tilde X=X-E[X]\),则有 \(\text{var}(\tilde X)=\text{var}(X)\)
注:\(E[g(X)]=g(E[X])\) 不总是成立(除非 g 是线性函数)
推论 (2) 证明:
\(E[(X-E[X])^2]=\sum\limits_{x\in D_{pX}}(x-E[X])^2p_X(x)\)
\(=\sum\limits_{x\in D_{pX}}x^2p_X(x)-2E[X]\sum\limits_{x\in D_{pX}}x\cdot p_X(x)+E[X]^2\sum\limits_{x\in D_{pX}}p_X(x)=E[X^2]-E[X]^2\)
令 \(g(X)=aX+b\),以下证明推论 (3),(4)
(3): \(E[g(X)]=\sum\limits_{x\in D_{pX}}g(x)p_X(x)=\sum\limits_{x\in D_{pX}}(ax+b)p_X(x)=a\sum\limits_{x\in D_{pX}}xp_X(x)+b\sum\limits_{x\in D_{pX}}p_X(x)=aE[X]+b\)
(4): \(\text{var}(g(X))=E[(g(X)-E[g(X)])^2]=\sum\limits_{x\in D_{pX}}(g(x)-E[g(X)])^2p_X(x)\)
\(=\sum\limits_{x\in D_{pX}}[(ax+b)-(aE[X]+b)]^2p_X(x)=a^2\sum\limits_{x\in D_{pX}}(x-E[X])^2p_X(x)=a^2\text{var}(X)\)
\(\blacksquare\)
常见随机变量的均值和方差
- 伯努利随机变量的分布列为 \(p_X(k)=\begin{cases}p&k=1\\1-p&k=0\end{cases}\),那么 \(E[X]=p\),\(E[X^2]=p\),\(\text{var}(X)=E[X^2]-(E[X])^2=p(1-p)\)
- 离散均匀随机变量 X 的分布列为 \(p_X(k)=\begin{cases}\frac1{b-a+1}&k=a..b\\0&其他\end{cases}\),那么 \(E[X]=\frac{a+b}2\),\(E[X^2]=\frac{2(a^2+ab+b^2)+(b-a)}6\),\(\text{var}(X)=\frac{(b-a)(b-a+2)}6=\frac{(b-a+1)^2-1}6\)
- 泊松随机变量 X 的分布列为 \(p_X(k)=e^{-\lambda}\frac{\lambda^k}{k!}\)(\(\lambda>0\)),那么 \(E[X]=\lambda\)
利用期望值进行决策
例:在一个智力游戏中有两个问题需要回答,两个问题的答对概率和奖金分别为 \(p_1,v_1\) 和 \(p_2,v_2\);答题者有两种顺序回答问题(先回答问题 1 或先回答问题 2),答题者能连续回答两次问题,仅当第一次回答正确;如何决策?
以期望值作为参考,两种决策的均值分别为 \(E[X_1]=(1-p_1)\cdot0+p_1(1-p_2)\cdot v_1+p_1p_2(v_1+v_2)=p_1(v_1+p_2v_2)\),\(E[X_2]=(1-p_2)\cdot0+p_2(1-p_1)\cdot v_2+p_2p_1(v_1+v_2)=p_2(v_2+p_1v_1)\)
假设第一种决策更优,那么 \(E[X_1]\ge E[X_2]\),当且仅当 \(p_1(v_1+p_2v_2)\ge p_2(v_2+p_1v_1)\),化简得 \(\frac{p_1v_1}{1-p_1}\ge \frac{p_2v_2}{1-p_2}\)
各种离散随机变量的各种参数值:
参数\随机变量 | 伯努利 | 二项 | 泊松 | 几何 | 离散均匀 |
---|---|---|---|---|---|
\(E[X]\) | \(p\) | \(np\) | \(\lambda\) | \(\frac1p\) | \(\frac{a+b}2\) |
\(E[X^2]\) | \(p\) | \(np(1-p+np)\) | \(\lambda^2+\lambda\) | \(\frac{2-p}{p^2}\) | \(\frac{2(a^2+ab+b^2)+(b-a)}6\) |
\(\text{var}(X)\) | \(p(1-p)\) | \(np(1-p)\) | \(\lambda\) | \(\frac{1-p}{p^2}\) | \(\frac{(b-a+1)^2-1}6\) |
\(\tilde X\)记号
- 若 \(\tilde X=X-E[X]\),那么:
- \(E[\tilde X]=E[X-E[X]]=E[X]-E[X]=0\)
- \(\text{var}(X)=E[\tilde X^2]\)
Tip
- 期望值或方差值可以通过多种方法证明,如:级数,全期望定理,独立性
5. 多个随机变量的联合分布列
在一个试验中经常涉及几个随机变量;例如, 在医疗诊断中,通常涉及几个试验指标,或者在网络中我们常常对几个网关的负荷感兴趣
所谓多个随机变量是指在同一试验结果下产生的多个随机变量;这些随机变量的取值由试验结果确定,因此它们的取值相互联系
现在考察它们取值的概率;本节将分布列和期望推广到多个随机变量的情况
以后我们还要讨论条件和独立这样的概念,这些概念是与第1章中讨论的概念平行的
多个随机变量,联合分布列
多个随机变量:在同一试验结果下产生的多个随机变量
联合分布列:假设同一个试验有两个随机变量 X 和 Y,它们的取值概率用它们的 联合分布列 来刻画,记为 \(P_{X,Y}\)
引用方法1:设 \((x,y)\) 是 X 和 Y 的可能取值,\((x,y)\) 的概率质量定义为事件 \(\{X=x,Y=y\}\) 的概率,有 \(p_{X,Y}(x,y)=P(X=x,Y=y)\)
(注:\(P(X=x,Y=y)=P(\{X=x,Y=y\})=P(\{X=x\}\cap\{Y=y\})\))
引用方法2:设 S 是事件 A 由试验结果的像 \((x,y)\) 的集合,那么 \(P(A)=P((x,y)\in S)=\sum\limits_{(x,y)\in S}P_{X,Y}(x,y)\)
引用方法3(边缘分布列):\(p_X(x)=\sum\limits_{y\in D_{p_Y}}p_{X,Y}(x,y)\),\(p_Y(y)=\sum\limits_{x\in D_{p_X}}p_{X,Y}(x,y)\)
注:两个随机变量的联合分布列可以构成一张分别以 X 和 Y 的取值为轴二维表
多个随机变量的函数
若 X 和 Y 为随机变量,设 \(Z=g(X,Y)\),那么该随机变量的分布列为 \(p_Z(z)=\sum\limits_{(x,y)\in\{(x,y)|g(x,y)=z\}}p_{X,Y}(x,y)\)
Z 的期望可以推广为:\(E[g(X,Y)]=\sum\limits_{x\in D_{p_X}}\sum\limits_{y\in D_{p_Y}}g(x,y)p_{X,Y}(x,y)=\sum\limits_{(x,y)\in (D_{p_X}\times D_{p_Y})}g(x,y)p_{X,Y}(x,y)\)
(推广到 n 维:\(E[g(\mathbf X)]=\sum\limits_{\mathbf x\in D_{p_\mathbf X}}g(\mathbf x)p_\mathbf X(\mathbf x)\))
推论:\(E[aX+bY+c]=aE[X]+bE[Y]+c\)
注:多个随机变量元组 \(\mathbf X\) 没有定义期望等“特征值”,如 \(E[\mathbf X]\) 是没有定义的
\(E[g(X,Y)]=E[Z]=\sum\limits_{z\in D_{p_Z}}zp_Z(z)=\sum\limits_{z\in D_{p_Z}}g(x,y)\sum\limits_{(x,y)\in\{(x,y)|g(x,y)=z\}}p_{X,Y}(x,y)\)
\(=\sum\limits_{(x,y)\in\{(x,y)|g(x,y)\in D_{p_Z}\}}g(x,y)p_{X,Y}(x,y)=\sum\limits_{x\in D_{p_X}}\sum\limits_{y\in D_{p_Y}}g(x,y)p_{X,Y}(x,y)\)
不小于三个随机变量
三个随机变量 X,Y,Z 的联合分布列为 \(P_{X,Y,Z}(x,y,z)=P(X=x,Y=y,Z=z)\)
边缘分布列,如:\(P_{X,Y}(x,y)=\sum\limits_{z\in D_{P_Z}}p_{X,Y,Z}(x,y,z)\),\(P_{X}(x)=\sum\limits_{y\in D_{P_Y}}\sum\limits_{z\in D_{P_Z}}p_{X,Y,Z}(x,y,z)\)
期望:\(E[g(X,Y,Z)]=\sum\limits_{x\in D_{p_X}}\sum\limits_{y\in D_{p_Y}}\sum\limits_{z\in D_{p_Z}}g(x,y,z)p_{X,Y,Z}(x,y,z)\)
\(E[aX+bY+cZ+d]=aE[X]+bE[Y]+cE[Z]+d\);推广:\(E[\sum\limits_{i=1}^na_iX_i]=\sum\limits_{i=1}^na_iE[X_i]\)
推论:二项随机变量的期望为 \(E[X]=\sum\limits_{i=1}^nE[X_i]=\sum\limits_{i=1}^np=np\)
帽子问题
- 有 n 个人的帽子(人和帽子一一对应)放在一个盒子里
- (1) 每个人等概率拿起自己的帽子,拿回自己的帽子的期望人数为 \(\sum\limits_{i=1}^n\frac1n=1\)
- (2) n 个人依次拿起帽子,拿回自己的帽子的期望人数为 \(\sum\limits_{i=1}^n\frac{\binom{n-1}{i-1}}{\binom n{i-1}(n-i+1)}=1\)
6. 条件
第 1 章指出,条件可以给某些事件或随机变量的取某些值提供参考信息
本节引入随机变量条件分布列,讨论分布列的性质,引进一些新符号
某个事件发生的条件下的随机变量
条件分布列:在某个事件 A (\(P(A)>0\))发生的条件下,随机变量 X 的条件分布列定义为 \(p_{X|A}(x)=P(X=x|A)=\frac{P(\{X=x\}\cap A)}{p(A)}\)
性质1:对于所有 \(x_1\ne x_2\),\(\{X=x_1\}\cap A\) 与 \(\{X=x_2\}\cap A\) 互不相容,它们的并为 A;因而 \(P(A)=\sum\limits_{x\in D_{p_X}}P(\{X=x\}\cap A)\)
性质2:满足概论律(分布列的前提条件)\(\sum\limits_{x\in D_{p_X}}p_{X|A}(x)=1\)
设 \(A_1,\dots,A_n\) 是一组互不相容的事件(\(P(A_i)>0\)),并且形成样本空间的一个分割,则 \(p_X(x)=\sum\limits_{i=1}^nP(A_i)p_{X|A_i}(x)\)
进一步假设 \(P(A_i\cap B)>0\),那么 \(p_{X|B}(x)=\sum\limits_{i=1}^nP(A_i|B)p_{X|A_i\cap B}(x)\)
Tip
- 普通的分布列可理解为在样本空间 \(\Omega\) 的条件下的分布列
- 而条件分布列可理解为在样本空间 \(\Omega\) 的子空间 A 的条件下的分布列
习题
- 掷骰子,A 表示抛掷后得到偶数;计算条件分布列
- 几何随机变量子问题,可以看作条件分布(详见p116)
给定另一个随机变量的值的条件下的随机变量
随机变量 X 在另一随机变量 Y 的某个取值条件下的条件分布列定义为 \(p_{X|Y}(x,y)=P(X=x|Y=y)\) (仅当 \(p_Y(y)>0\))
根据条件概率的定义,有 \(p_{X|Y}(x|y)=P(X=x|Y=y)=\frac{P(X=x,Y=y)}{P(Y=y)}=\frac{P_{X,Y}(x,y)}{P_Y(y)}\)
性质:\(\sum\limits_{x\in D_{p_X}}p_{X|Y}(x|y)=1\)
推论:\(p_{X,Y}(x,y)=p_Y(y)p_{X|Y}(x|y)=p_X(x)p_{Y|X}(y|x)\)
根据全概率公式,有 \(p_X(x)=\sum\limits_{y\in D_{p_Y}}p_{X,Y}(x,y)=\sum\limits_{y\in D_{p_Y}}p_Y(y)p_{X|Y}(x|y)\),\(p_Y(y)=\sum\limits_{x\in D_{p_X}}p_{X,Y}(x,y)=\sum\limits_{x\in D_{p_X}}p_X(x)p_{Y|X}(y|x)\)
推广:两个以上的随机变量的情况,如 \(p_{X,Y|Z}(x,y|z)\),\(p_{X|Y,Z}(x|y,z)\)
练习
- p119-121
条件期望(期望的推广)
设 X 和 Y 为某一试验中的两个随机变量
- X 在给定事件 A(\(P(A)>0\))发生的条件下的条件期望为 \(E[X|A]=\sum\limits_{x\in D_{p_X}}xp_{X|A}(x)\);对于函数 \(g(X)\),有 \(E[g(X)|A]=\sum\limits_{x\in D_{p_X}}g(x)p_{X|A}(x)\)
- 给定 \(Y=y\) 的条件下 X 的条件期望为 \(E[X|Y=y]=\sum\limits_{x\in D_{p_X}}xp_{X|Y}(x|y)\)
- 设 \(A_1,\dots,A_n\) 互不相容并且形成样本空间的一个分割(\(P(A_i)>0\)),那么 \(E[X]=\sum\limits_{i=1}^nP(A_i)E[X|A_i]\);进一步假定事件 B 满足 \(P(A_i\cap B)>0\),那么 \(E[X|B]=\sum\limits_{i=1}^nP(A_i|B)E[X|A_i\cap B]\)
- \(E[X]=\sum\limits_{y\in D_{p_Y}}p_Y(y)E[X|Y=y]\)
注:(3),(4) 中的三个等式本质上相互等价,称之为 全期望定理
总结
- 设 \(\mathbf X,\mathbf Y\) 是多元随机变量
- A 发生的条件下
- \(\mathbf X\) 的分布列:\(p_{\mathbf X|A}(\mathbf x|A)=P(\mathbf X=\mathbf x|A)=\frac{P(\{\mathbf X=\mathbf x\}\cap A)}{P(A)}\)
- 全概率公式:\(p_{\mathbf X}(\mathbf x)=\sum\limits_{i=1}^nP(A_i)p_{\mathbf X|A_i}(\mathbf x)\)
- \(\mathbf X\) 的期望:\(E[\mathbf X|A]=\sum\limits_{\mathbf x\in D_{p_\mathbf X}}\mathbf xp_{\mathbf X|A}(\mathbf x), E[\mathbf g(X)|A]=\sum\limits_{\mathbf x\in D_{p_\mathbf X}}g(\mathbf x)p_{\mathbf X|A}(\mathbf x)\)
- 全期望定理:\(E[\mathbf X]=\sum\limits_{i=1}^nP(A_i)E[\mathbf X|A_i]\)
- \(\mathbf Y=\mathbf y\) 发生的条件下
- \(\mathbf X\) 的分布列:\(p_{\mathbf X|\mathbf Y}(\mathbf x,\mathbf y)=P(\mathbf X=\mathbf x|\mathbf Y=\mathbf y)=\frac{P(\mathbf X=\mathbf x,\mathbf Y=\mathbf y)}{P(\mathbf Y=\mathbf y)}=\frac{P_{\mathbf X,\mathbf Y}(\mathbf x,\mathbf y)}{p_{\mathbf Y(\mathbf y)}}\)
- 全概率公式:\(p_{\mathbf X}(\mathbf x)=\sum\limits_{\mathbf y\in D_{p_\mathbf Y}}P_{\mathbf X,\mathbf Y}(\mathbf x,\mathbf y)=\sum\limits_{\mathbf y\in D_{p_\mathbf Y}}P_{\mathbf Y}(\mathbf y)P_{\mathbf X|\mathbf Y}(\mathbf x|\mathbf y)\)
- \(\mathbf X\) 的期望:\(E[\mathbf X|\mathbf Y=\mathbf y]=\sum\limits_{\mathbf x\in D_{p_\mathbf X}}\mathbf xp_{\mathbf X|\mathbf Y}(\mathbf x|\mathbf y)\)
- 全期望定理:\(E[\mathbf X]=\sum\limits_{\mathbf y\in D_{p_\mathbf Y}}p_\mathbf Y(\mathbf y)E[\mathbf X|\mathbf Y=\mathbf y]\)
习题
- 几何随机变量的均值和方差(通过条件期望来计算)(提示:\(E[X|X=1]=1,E[X|X>1]=1+E[X]\);\(E[X^2|X=1]=1,E[X^2|X>1]=E[(X+1)^2]=E[X^2]+2E[X]+1\))
- 两个信封的悖论
7. 独立性
随机变量与事件的相互独立性
与两个事件的相互独立性相同
随机变量 X 独立于事件 A,当且仅当 对于所有 x,有 \(P(X=x且A)=P(X=x)P(A)=p_X(x)P(A)\)
若 \(P(A)>0\),上式等价于 \(p_{X|A}(x)=p_X(x)\)
随机变量之间的相互独立性
随机变量 X 和 Y 称为相互独立的随机变量,当且仅当 对于所有 \(x,y\),有 \(P_{X,Y}(x,y)=P_X(x)p_Y(y)\)
若对于所有 y 有 \(p_Y(y)>0\),X 和 Y 的相互独立性等价于 对于所有 x,都有 \(p_{X|Y}(x,y)=p_X(x)\)
注:Y 和 X 的独立性意味着 Y 的取值不会提供 X 取值的信息
X 和 Y 在给定事件 A (\(P(A)>0\))的条件下是条件独立的,如果它们满足:对于 x 和 y 有 \(P(X=x,Y=y|A)=P(X=x|A)P(Y=y|A)\);记为 \(p_{X,Y|A}(x|y)=p_{X|A}(x)p_{Y|A}(y)\)
注:条件独立性并不包含(不蕴涵)独立性,反之亦然
假设 X 和 Y 相互独立
\(E[XY]=\sum\limits_{x\in D_{p_X}}\sum\limits_{y\in D_{p_Y}}xyp_{X,Y}(x,y)=\sum\limits_{x\in D_{p_X}}xp_X(x)\sum\limits_{y\in D_{p_Y}}yp_Y(y)=E[X]E[Y]\) (1)
\(\text{var}(X+Y)=E[(\tilde X+\tilde Y)^2]=E[\tilde X^2+2\tilde X\tilde Y+\tilde Y^2]=E[\tilde X^2]+2E[\tilde X\tilde Y]+E[\tilde Y^2]\)
由 X 和 Y 相互独立以及 (1) 的推广,有 \(E[\tilde X\tilde Y]=E[\tilde X]E[\tilde Y]=0\)
固有 \(\text{var}(X+Y)=E[\tilde X^2]+E[\tilde Y^2]=\text{var}(X)+\text{var}(Y)\) (3)
两个随机变量之间独立性的性质
若 X 和 Y 相互独立,那么:
- \(E[XY]=E[X]E[Y]\)
- \(g(X)\) 和 \(h(Y)\) 相互独立;因而 \(E[g(X)h(Y)]=E[g(X)]E[h(Y)]\)
- \(\text{var}(X+Y)=\text{var}(X)+\text{var}(Y)\)
- \(\text{var}(XY)=E[X^2]E[Y^2]-(E[X]E[Y])^2\)
假设样本 \(X_1,\dots,X_n\) 相互独立,记样本均值为 \(S_n=S_n(\mathbf X)=\frac{\sum\limits_{i=1}^nX_i}n\),那么
\(E[S_n]=\frac1n\sum\limits_{i=1}^nE[X_i]\),\(\text{var}(S_n)=\frac1{n^2}\sum\limits_{i=1}^n\text{var}(X_i)\)
再假设 \(X_i\) 均为伯努利随机变量,有 \(E[S_n]=p,\text{var}(S_n)=\frac{p(1-p)}n\),观察到随机变量函数 \(S_n\) 的期望是 p 的一个很好的估计;并且 n 越大,反映估计精度的方差越小
多个随机变量之间的相互独立性
假设 \(X_1,X_2,\dots,X_n\) 是相互独立的随机变量,那么:
- 对于所有 \(\mathbf x_i\in D_{p_{\mathbf X_i}}\),有 \(p_{\mathbf X}(\mathbf x)=\prod\limits_{i=1}^np_{\mathbf X_i}(\mathbf x_i)\)
- 对于所有 \(\mathbf U\in 2^\mathbf X,\mathbf V\in2^{\mathbf X\setminus \mathbf U}\),有 \(g(\mathbf U)\) 和 \(h(\mathbf V)\) 相互独立
练习(p133)
- 二项分布&泊松分布的方差
- 样本均值的期望和方差(n 次伯努利)
- 用模拟方法估计概率