3.一般随机变量

Tip

离散：分布列PMF，分布函数CDF，期望，方差，矩；常见分布（伯努利，二项，泊松，几何，离散均匀）
连续：概率密度函数PDF，分布函数CDF，期望，方差，矩；常见分布（连续均匀，指数，正态）
随机变量类型：连续/离散，普通/复合/联合
随机变量关系：相容性（完备性），无条件/条件（独立性）

1. 连续随机变量 & 概率密度函数

连续随机变量，概率密度函数(PDF)

对于随机变量 X，若存在一个非负函数 \(f_X\)（对于所有 x，\(f_X(x)\ge0\)），对于所有实数轴上的集合 B 都有 \(\int_Bf_X(x)~d_x=P(X\in B)\)，

则 X 称为连续随机变量，函数 \(f_X\) 称为 X 的概率密度函数（简称 PDF，probability density function）

注1：PDF 与离散随机变量的分布列相对应；上式对应于离散随机变量分布列的形式为 \(\sum\limits_{x\in B}p_X(x)=P(X\in B)\)

注2：\(\int_Bf(x)~d_x\) 可理解为黎曼积分，我们假定所涉及的函数是黎曼可积的；对于不寻常的函数或集合，该积分可能无法定义，这是近代数学分析所处理的问题

注3：我们通常只会遇到具有有限多个间断点的逐段连续函数 \(f_X\)，通常积分限位有限个区间的和（这些情况属于黎曼积分的处理范围）

若 \(B=[a,b]\)，有 \(P(a\le X\le b)=\int_a^bf_X(x)~d_x\)

性质：区间端点的计算对概率不起作用，\(P(a\le X\le b)=P(a<X<b)=P(a\le X< b)=P(a< X\le b)\)

性质2：满足概率律，\(f_X(x)\ge0\)；\(\int_{-∞}^{+∞}f_X(x)~d_x=P(-∞<X<+∞)=1\)

注4：\(f_X(x)>1\) 是可以被允许的

对于很小的数 \(\delta>0\)，有 \(P([x,x+\delta]) = \int_x^{x+\delta}f_X(x)~d_x\approx f_x(x)\delta\)

均匀分布的随机变量

假设随机变量 X 取值于 \([a,b]\) 的任意两个长度相同的子区间的概率是相同的，那么 X 称为具有均匀分布的随机变量，

其 PDF 为 \(f_X(x)=\begin{cases}\frac1{b-a}&a\le x\le b\\0&其他\end{cases}\)

推广：逐段均匀分布的随机变量：对于 \(a_1<\dots<a_n\)，\(c_1,\dots,c_{n-1}\ge0\)，有 \(f_X(x)=\begin{cases}c_i&a_i\le x\le a_{i+1},i=1..n-1\\0&其他\end{cases}\)；满足 \(1=\int_{a_1}^{a_n}f_X(x)~d_x=\sum\limits_{i=1}^{n-1}\int_{a_i}^{a_{i+1}}c_i~d_x=\sum\limits_{i=1}^{n-1}c_i(a_{i+1}-a_i)\)

可以取任意大值的PDF

如 \(f(x)=\begin{cases}\frac1{2\sqrt{x}}&0<x\le1\\0&其他\end{cases}\)，\(x\to0\) 时，\(f(x)\) 任意大；但是 \(\int_{-∞}^{+∞}f_X(x)~d_x=\int_0^1\frac1{2\sqrt x}~d_x=\sqrt x|_0^1=1\)

期望,各种参数

连续随机变量 X 的期望或均值定义为 \(E[X]=\int_{-∞}^{+∞}xf_X(x)~d_x\) （仅当 \(\int_{-∞}^{+∞}|x|f_X(x)~d_x<∞\)）

约定：本书总是假定 X 的期望是有定义的

注：\(E[X]\) 可以解释为 PDF 的中心和大量重复独立试验中 X 的取值的平均数

连续随机变量的函数的期望：\(E[g(X)]=\int_{-∞}^{+∞}g(x)f_X(x)~d_x\)（注：\(Y=g(X)\) 可以是不仅限于连续随机变量）

n 阶矩：\(E[X^n]=\int_{-∞}^{+∞}x^nf_X(x)~d_x\)

方差：\(\text{var}(X)=E[(X-E[X])^2]=E[\tilde X^2]=E[X^2]-E[X]^2\ge 0\)

标准差：\(\sigma_X=\sqrt{\text{var}(X)}\)

\(E[aX+b]=aE[X]+b\)，\(\text{var}(aX+b)=a^2\text{var}(X)\)

\(E[g(X)]=E[Y]=\int_{D_{f_Y}}yf_Y(y)~d_y=\int_{D_{f_Y}}y\int_Bf_X(x)~d_x~d_y=\int_{D_{f_Y}}\int_Bg(x)f_X(x)~d_x~d_y\)

（其中 \(B=\{x~|~g(x)=y\}\)）

由于 \(y\in D_{f_Y}, x\in\{x~|~g(x)=y\}\) 蕴涵 \(x\in\{x~|~g(x)=D_{f_Y}\}=D_{f_X}\) 有 \(E[g(X)]=\int_{D_{f_X}}g(x)f_X(x)~d_x\)

均匀随机变量

设 X 在 \([a,b]\) 上均匀分布，即 PDF 为 \(f_X(x)=\begin{cases}\frac1{b-a}&a\le x\le b\\0&其他\end{cases}\)，

其期望为 \(E[X]=\frac{a+b}2\)，二阶矩为 \(E[X^2]=\frac{a^2+ab+b^2}3\)，方差为 \(\text{var}(X)=E[X^2]-E[X]^2=\frac{(b-a)^2}{12}\)

指数随机变量

若 X 的 PDF 形如 \(f_X(x)=\begin{cases}\lambda e^{-\lambda x}&x\ge0\\0&其他\end{cases}\)，而且 \(\lambda>0\)，

那么称 X 是指数随机变量

注：指数随机变量具有广泛的用处, 它可以表示到发生某个事件为止所用的时间, 例如,这个事件可以是某条信息到达计算机、一台仪器的使用寿命终止、一个灯泡用坏了或一辆汽车出一次车祸, 等等

性质：\(P(X\ge a)=\int_a^{+∞}\lambda e^{-\lambda x}~d_x=-e^{-\lambda x}|_a^{+∞}=e^{-\lambda a}\)

均值，二阶矩，方差分别为 \(E[X]=\frac1\lambda\)，\(E[X^2]=\frac2{\lambda^2}\)，\(\text{var}(X)=\frac1{\lambda^2}\)

注：\(\int_0^{+∞}x^ke^{-\lambda x}~d_x=\frac{k!}{\lambda^{k+1}}\)，因此指数随机变量的 n 阶矩为 \(E[X^n]=\frac{n!}{\lambda^{n}}\)

2. 分布函数

我们分别用分布列(离散情况)和概率密度函数(连续情况)来刻画随机变量 X 的取值规律

现在我们希望用一个统一的数学工具来刻画随机变量的取值规律

分布函数(CDF)

随机变量 X 的分布函数定义为 \(F_X(x)=P(X\le x)=\begin{cases}\sum\limits_{i\le x}p_X(i)&若 X 是离散的\\\int_{-∞}^xf_X(t)~d_t&若 X 是连续的\end{cases}\)，

分布函数又称累积分布函数，简称为 CDF（cumulative distribution function）

注：在一个概率模型中，随机变量 X 不管是连续的，离散的，既非连续也非离散的，X 都有一个分布函数

约定：凡是刻画事件 \(\{X\le x\}\) 的概率的，都称为随机变量 X 的概论律；因此，离散情况下的分布列，连续情况下的概率密度函数，一般情况下的分布函数都是相应的随机变量的概率律

CDF的性质1

离散随机变量的 CDF，\(F_X(x)=P(X\le x)=\sum\limits_{i\le x}p_X(i)\)：该函数为阶梯函数，在具有正概率的点上具有跳跃；在跳跃点上，\(F_X(x)\) 取较大值，即 \(F_X(x)\) 在跳跃点上右连续

假设 X 有 n 个取正概率的点 \(a_1<\dots<a_n\)，那么 \(F_X(x)=\begin{cases}\sum\limits_{j=1}^ip_X(a_j)&a_i\le x<a_{i+1},i=1..n-1\\1&x\ge a_n\\0&x<a_1\end{cases}\)

因而 \(p_X(a_i)=F_X(a_i)-F_X(a_{i-1})\) （差分）

X 只取整数值时：\(F_X(k)=\sum\limits_{i=-∞}^kp_X(i)\)，\(p_X(k)=P(X\le k)-P(X\le k-1)=F_X(k)-F_X(k-1)\)（\(k\in\mathbb Z\)）

连续随机变量的 CDF，\(F_X(x)=P(X\le x)=\int_{-∞}^xf_X(t)~d_t\)：该函数为连续函数

根据微积分基本定理 1，有 \(f_X(x)=\frac{d~F_X}{d_x}(x)\) （微分）

CDF的性质2

\(F_X\) 是单调非减函数：对于所有 \(x\le y\)，有 \(F_X(x)\le F_X(y)\)

\(\lim\limits_{x\to-∞}F_X(x)=0\)，\(\lim\limits_{x\to+∞}F_X(x)=1\)

X 是离散随机变量时，\(F_X(x)\) 是 x 的阶梯函数；X 是连续随机变量时，\(F_X(x)\) 是 x 的连续函数

几何 & 指数随机变量的分布函数

\(F_{geo}(n)=\sum\limits_{i=1}^np(1-p)^{k-1}=p\frac{1-(1-p)^n}{1-(1-p)}=1-(1-p)^n\)

\(F_{exp}(n)=\begin{cases}\int_0^x\lambda e^{-\lambda t}~d_t&x>0\\0&x\le 0\end{cases}=\begin{cases}1-e^{-\lambda x}&x>0\\0&x\le 0\end{cases}\)

假设 \(\delta=\frac{\ln(1-p)}{-\lambda}\)，那么 \(F_{exp}(n\delta)=F_{geo}(n)\)（\(n\in N^+\)）

假定我们以很快的速度抛掷不均匀的硬币（每 \(\delta\) 一次，\(\delta<<1\)），每次抛掷正面向上的概率为 \(p=1-e^{-\lambda\delta}\)，

第一次得到正面向上所抛掷的次数为 X，第一次得到正面向上的时刻为 \(X\delta\)；而 \(X\delta\) 与参数为 \(\lambda\) 的指数随机变量时分接近

若 X 是参数为 \(p=1-e^{-\lambda\delta}\) 的几何随机变量；当 \(\delta\to0\)，\(X\delta\) 的分布函数趋近于指数分布函数 \(1-e^{-\lambda x}\)

3. 正态随机变量

正态随机变量

一个连续随机变量 X 称为正态的或高斯的，若它的概率密度函数具有如下形式：\(f_X(x)=\frac1{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/(2\sigma^2)}\)，

其中 \(\mu\) 和 \(\sigma>0\) 是 PDF 的两个参数

性质：满足归一化，\(\frac1{\sqrt{2\pi}\sigma}\int_{-∞}^{+∞} e^{-(x-\mu)^2/(2\sigma^2)}d_x=1\)（注：\(e^{-x^2}\) 没有初等原函数）

均值为 \(E[X]=\mu\)，方差为 \(\text{var}(X)=\sigma^2\)，标准差为 \(\sigma\)

注：显然 \(E[aX+b]=aE[X]+b=a\mu+b\)，\(\text{var}(aX+b)=a^2\sigma^2\)

标准正态随机变量

假设正态随机变量 Y 的期望为 \(\mu=0\)，方差为 \(\sigma^2=1\)，则 Y 称为正态随机变量

其 CDF 记为 \(\Phi(y)=P(Y\le y)=\frac1{\sqrt{2\pi}}\int_{-∞}^ye^{-t^2/2}d_t\)

根据 \(f_Y(y)\) 的对称性以及容斥原理，有 \(P(Y\le y)=P(Y\ge -y)=1-P(Y<-y)\)，

于是 \(\Phi(y)=1-\Phi(-y)\) 或 \(\Phi(-y)=1-\Phi(y)\)

注：\(\Phi(y)\) 在一定范围内的值可通过“标准正态分布表”获得

正态随机变量的标准化

正态随机变量 X 的期望为 \(E[X]=\mu\)，方差为 \(\text{var}(X)=\sigma^2\)，

而 \(Y=\frac{X-\mu}{\sigma}\) 的期望为 \(E[Y]=E[\frac{X-\mu}{\sigma}]=\frac{E[X]-\mu}{\sigma}=0\)，方差为 \(\text{var}(Y)=\text{var}(\frac{X-\mu}{\sigma})=\frac{\text{var}(X)}{\sigma^2}=1\)（PDF 为 \(f_Y(y)=\frac1{\sqrt{2\pi}\sigma}e^{-y^2/2}=\frac1{\sqrt{2\pi}}e^{-y^2/2}\)？）

也就是说 \(Y=\frac{X-\mu}{\sigma}\) 是标准正态随机变量

应用：\(P(X\le x)=P(\frac{X-\mu}{\sigma}\le\frac{x-\mu}{\sigma})=P(Y\le \frac{x-\mu}{\sigma})=\Phi(\frac{x-\mu}{\sigma})\) 或 \(P(X> x)=1-\Phi(\frac{x-\mu}{\sigma})\)

例：p179

注：正态随机变量在概论论中十分重要；大量的独立同分布的随机变量的和的分布近似地服从正态分布，而这个事实与各个和项的具体的分布无关，这个事实就是中心极限定理（详见第 5 章）

4. 多个随机变量的概率密度

现在将 PDF 的概念推广到多个随机变量的情况

与离散的情况相似,我们将引进联合、边缘以及条件PDF的概念，其直观解释和主要性质与离散情况完全平行

联合概率密度

设 X 和 Y 为在同一个试验中的两个随机变量，若它们存在联合概率密度函数，则称 X 和 Y 是联合连续的

非负的二元函数 \(f_{X,Y}(x,y)\) 称为 X 和 Y 的联合概率密度函数，若对任意平面上的二元集合 B，下式成立：\(P((x,y)\in B)=\int_{(x,y)\in B}\int f_{X,Y}(x,y)~d_xd_y\)

若 \(B=\{(x,y)~|~a\le x\le b,c\le y\le d\}\)，则上式为 \(P(a\le X\le b,c\le y\le d)=\int_c^d\int_a^bf_{X,Y}(x,y)~d_xd_y\)

性质1：满足归一化公理 \(\int_{-∞}^{+∞}\int_{-∞}^{+∞}f_{X,Y}(x,y)~d_xd_y=1\)

性质2：若 \(\delta>0\) 充分小，那么 \(P(a\le X\le a+\delta,c\le y\le c+\delta)=\int_c^{c+\delta}\int_a^{a+\delta}f_{X,Y}(x,y)~d_xd_y\approx f_{X,Y}(x,y)\cdot\delta^2\)

注：\(f_{X,Y}(a,c)\) 可以看作 \((X,Y)\) 落入 \((a,c)\) 附近单位面积中的概率

作为例子，\(P(x\in A,Y\in(-∞,+∞))=\int_A\int_{-∞}^{+∞} f_{X,Y}(x,y)~d_yd_x\)，而 \(P(x\in A)=\int_A f_X(x)~d_x\)

因而 \(f_X(x)=\int_{-∞}^{+∞} f_{X,Y}(x,y)~d_y\)

边缘概率密度

设 X 和 Y 为在同一个试验中的两个随机变量，并且它们具有联合概率密度函数 \(f_{X,Y}(x,y)\)，那么 X 和 Y 的边缘概率密度函数分别为：

\(f_X(x)=\int_{-∞}^{+∞}f_{X,Y}(x,y)~d_y\)，\(f_Y(y)=\int_{-∞}^{+∞}f_{X,Y}(x,y)~d_x\)

二维均匀概率密度函数

\(S\in\mathbb R^2\) 上的联合均匀概率密度函数为 \(f_{X,Y}(x,y)=\begin{cases}\frac1{S的面积}&(x,y)\in S\\0&其他\end{cases}\)

若 \(A\subset S\)，那么 \(P((X,Y)\in A)=\int_{(x,y)\in A}\int f_{X,Y}(x,y)~d_xd_y=\frac1{S的面积}\int_{(x,y)\in A}\int~d_xd_y=\frac{A的面积}{S的面积}\)

布丰的抛针试验

这是一个著名的例子，几何概率由此发源

在平面上画了若干条平行线，相互之间的距离为 d，现在往平面上随机地抛掷一根长度为 l 的针（\(l<d\)）

设 X 为针离最近的一条直线的垂直距离(最短距离)（\(0\le X\le\frac d2\)），\(\Theta\) 为针与平行直线之间的夹角（\(0\le\Theta\le\frac\pi2\)）

假定 \((X,\Theta)\) 为均匀随机变量组，它们的联合均匀 PDF 为 \(f_{X,\Theta}(x,\theta)=\frac4{\pi d}\)（\(x\in[0,d/2],\theta\in[0,\pi/2]\)）

针与平行直线相交的充要条件为 \(X\le\frac l2\sin\Theta\)，其相应概率为 \(P(X\le\frac l2\sin\Theta)=\int_{x\le\frac l2\sin\theta}\int f_{X,\Theta}(x,\theta)~d_xd_\theta=\frac{2l}{\pi d}\)

另外，我们再通过试验获取“针与平行直线相交”的频率进而近似为概率，即可反推出 \(\pi\) 的估计值

联合分布函数（联合 CDF）

设 X 和 Y 是在同一试验中两个随机变量，它们的联合 CDF 定义为 \(F_{X,Y}(x,y)=P(X\le x,Y\le y)\)

以连续随机变量为例，若 X 和 Y 具有联合 PDF \(f_{X,Y}(x,y)\)，则 \(F_{X,Y}(x,y)=P(X\le x,Y\le y)=\int_{-∞}^x\int_{-∞}^yf_{X,Y}(s,t)~d_td_s\)

对联合 CDF 偏微分得到联合 PDF：\(\frac{\partial^{2}F_{X,Y}}{\partial x\partial y}(x,y)\)

期望

X 和 Y 为联合连续随机变量，\(Z=g(X,Y)\) 也是一个随机变量（4.1 节将讨论 Z 的 PDF 的计算方法），

那么 \(E[g(X,Y)]=\int_{-∞}^{+∞}\int_{-∞}^{+∞}g(x,y)f_{X,Y}(x,y)~d_xd_y\)，

\(E[aX+bY+c]=aE[X]+bE[Y]+c\)（前文已证明）

多于两个随机变量的情况

三个随机变量 X，Y，Z 的联合 PDF 满足 \(\int_{(x,y,z)\in B}f_{X,Y,Z}(x,y,z)~d_xd_yd_z\)（注：该记号可能不严格）

根据全概率定理，例如有 \(f_{X,Y}(x,y)=\int_{-∞}^{+∞}f_{X,Y,Z}(x,y,z)~d_z\)，\(f_{X}(x)=\int_{-∞}^{+∞}\int_{-∞}^{+∞}f_{X,Y,Z}(x,y,z)~d_yd_z\)，

\(g(X,Y,Z)\) 的复合期望有 \(E[g(X,Y,Z)]=\int_{-∞}^{+∞}\int_{-∞}^{+∞}\int_{-∞}^{+∞}g(x,y,z)f_{X,Y,Z}(x,y,z)~d_xd_yd_z\)，

线性函数的复合期望：\(E[\sum\limits_{i=1}^na_iX_i]=\sum\limits_{i=1}^na_iE[X_i]\)

5. 条件

与离散随机变量的情况相似，可以以一个随机事件或另一个随机变量为条件，讨论随机变量的特性，并在此基础上建立条件概率密度函数和条件期望的概念

各种定义和公式都与离散的情况平行，且其意义的解释也都是类似的

在连续情况下，还会遇到以零概率事件 \(\{Y=0\}\) 为条件的情况，这在离散情况下是无法处理的

以事件为条件的随机变量

连续随机变量 X 在事件 A 发生的条件下（\(P(A)>0\)）的条件概率密度函数 \(f_{X|A}(x)\) 由下式定义：对于所有直线上的集合 B，满足 \(P(X\in B|A)=\int_Bf_{X|A}(x)~d_x\)，

其中 \(f_{X|A}(x)=\begin{cases}\frac{f_X(x)}{P(X\in A)}&x\in A\\0&其他\end{cases}\)

（注：条件 PDF 在条件集合外边取值为 0，在条件集合内部与无条件 PDF 有相同形状而大小为原来的 \(\frac1{P(X\in A)}\) 倍（归一化因子））

满足归一化：\(\int_{-∞}^{+∞}f_{X|A}(x)~d_x=1\)

X 在 \(\{X\in A\}\) 的条件下（\(P(X\in A)>0\)）的条件概率为 \(P(X\in B|X\in A)=\frac{P(X\in A,X\in B)}{P(X\in A)}=\frac{\int_{A\cap B}f_X(x)~d_x}{P(X\in A)}\)

指数随机变量的无记忆性

假设灯泡的使用寿命 T 是参数为 \(\lambda\) 的指数随机变量，记 a，X 分别为灯泡的当前寿命，灯泡剩余的寿命（注：后者是不确定的量，所以设为随机变量以研究其分布函数），满足：\(T=a+X\)

那么 \(P(X>x|T>a)=P(T>x+a|T>a)=\frac{P(T>x+a,T>a)}{P(T>a)}=\frac{P(T>x+a)}{P(T>a)}=\frac{e^{-\lambda(x+a)}}{e^{-\lambda a}}=e^{-\lambda x}\)，

于是，\(P(X>x|T>a)=P(T>x)\)；换句话说，灯泡剩余时间 X 在 \(T>a\) 的条件下的还是服从指数随机变量的分布函数

联合条件 PDF

设 X 和 Y 是联合连续随机变量，其联合 PDF 为 \(f_{X,Y}\)，假设作为条件的正概率事件为 \(C=\{(X,Y)\in A\}\)，

X 和 Y 的联合条件 PDF 为 \(f_{X,Y|C}(x,y)=\begin{cases}\frac{f_{X,Y}(x,y)}{P(C)}&(x,y)\in A\\0&其他\end{cases}\)

性质1：\(f_{X|C}(x)=\int_{-∞}^{+∞}f_{X,Y|C}(x,y)~d_y\)

性质2：若 \(A_1,\dots,A_n\) 是样本空间的一个分割，则 \(f_X(x)=\sum\limits_{i=1}^nP(A_i)f_{X|A_i}(x)\)

性质 2 证明：若 \(A_1,\dots,A_n\) 是样本空间的一个分割，有 \(P(X\le x)=\sum\limits_{i=1}^nP(A_i)P(X\le x|A_i)\)，

于是 \(\int_{-∞}^xf_X(t)~d_t=\sum\limits_{i=1}^nP(A_i)\int_{-∞}^xf_{X|A_i}(t)~d_t\)，

对两边微分有 \(f_X(x)=\sum\limits_{i=1}^nP(A_i)f_{X|A_i}(x)\)

一个随机变量对另一个随机变量的条件

X 和 Y 为联合连续随机变量，其联合 PDF 为 \(f_{X,Y}(x,y)\)

X 的条件 PDF 定义：\(f_{X|Y}(x|y)=\frac{f_{X,Y}(x,y)}{f_Y(y)}\)（仅当 \(f_Y(y)>0\)）

注：考虑条件 PDF 时，最好将 y 值固定下来，将 \(f_{X|Y}(x|y)\) 看成 x 的函数；作为 x 的函数，\(f_{X|Y}(x|y)\) 与 \(f_{X,Y}(x,y)\) 具有相同的形状，因为它们仅相差一个与 x 无关的常数因子 \(f_Y(y)=\int_{-∞}^{+∞}f_{X,Y}(x,y)~d_x\)；这暗示了归一化性质 \(\int_{-∞}^{+∞}f_{X|Y}(x|y)~d_x=1\)

注2：此时的条件不是一个范围，而是一个随机变量的某个点

考虑条件概率密度函数的概率意义，令 \(\delta_1,\delta_2>0\) 充分小，

\(P(x\le X\le x+\delta_1|y\le Y\le y+\delta_2)=\frac{P(x\le X\le x+\delta_1且y\le Y\le y+\delta_2)}{P(y\le Y\le y+\delta_2)}\approx\frac{f_{X,Y}(x,y)\delta_1\delta_2}{f_Y(y)\delta_2}=f_{X|Y}(x|y)\delta_1\)，

等式右侧 \(f_{X|Y}(x|y)\delta_1\) 不依赖于 \(\delta_2\)，我们将其认为是 \(\delta_2\to0\) 的极限情况，即 \(P(x\le X\le x+\delta_1|Y=y)\approx f_{X|Y}(x|y)\delta_1\)（\(\delta_1\) 充分小），

其积分形式为 \(P(X\in A|Y=y)=\int_Af_{X|Y}(x|y)~d_x\)

例题

圆上的均匀概率密度函数（p193）
交通测速(p195)

多个随机变量的情况

例如：

\(f_{X,Y|Z}(x,y|z)=\frac{f_{X,Y,Z}(x,y,z)}{f_Z(z)}\)（仅当 \(f_Z(z)>0\)）

\(f_{X|Y,Z}(x|y,z)=\frac{f_{X,Y,Z}(x,y,z)}{f_{Y,Z}(y,z)}\)（\(f_{Y,Z}(y,z)>0\)）

乘法规则：\(f_{X,Y,Z}(x,y,z)=f_{X|Y,Z}(x|y,z)f_{Y|Z}(y|z)f_Z(z)\)

对于连续随机变量 X，给定时间 A 的条件期望 \(E[X|A]\) 的定义利用条件 PDF \(f_{X|A}\) 来定义

类似地，条件期望 \(E[X|Y=y]\) 通过条件 PDF \(f_{X|Y}\) 来定义

关于普通期望的各种性质可以原封不动的搬到条件期望中来；这些公式也与离散情况下类似，只是将求和符号变成积分符号，PMF 变成 PDF

条件期望

X 和 Y 是联合连续随机变量，事件 A 满足 \(P(A)>0\)

定义式：

X 在给定事件 A 之下的条件期望：\(E[X|A]=\int_{-∞}^{+∞}xf_{X|A}(x)~d_x\)

X 在 \(Y=y\) 之下的条件期望：\(E[X|Y=y]=\int_{-∞}^{+∞}xf_{X|Y}(x|y)~d_x\)

复合期望(期望规则)：

\(E[g(X)|A]=\int_{-∞}^{+∞}g(x)f_{X|A}(x)~d_x\)

\(E[g(X)|Y=y]=\int_{-∞}^{+∞}g(x)f_{X|Y}(x|y)~d_x\)

全期望定理：

设 \(A_1,\dots,A_n\) 为互不相容的 n 事件，并且形成样本空间的一个分割（\(P(A_i)>0\)），则：\(E[X]=\sum\limits_{i=1}^nP(A_i)E[X|A_i]\)

\(E[X]=\int_{-∞}^{+∞}f_Y(y)E[X|Y=y]~d_y\)

复合多元期望，如：\(E[g(X,Y)|Y=y]=\int g(x,y)f_{X|Y}(x|y)~d_x\)；\(E[g(X,Y)]=\int f_Y(y)E[g(X,Y)|Y=y]~d_y\)

注：全期望定理的证明详见 p197-198

注2：全期望定理用于计算期望，n 阶矩，方差（例如：分段不同分布的随机变量的期望可以用子区间下的随机变量的期望得到）

独立性

假设两个连续随机变量 X 和 Y 具有联合 PDF，

那么 X 和 Y 相互独立，当且仅当对于所有 x 和 y，\(f_{X,Y}(x,y)=f_X(x)f_Y(y)\)

上式等价于对于所有 x，\(f_{X|Y}(x|y)=f_X(x)\)（\(f_Y(y)>0\)）

根据对称性，对于所有 y，\(f_{Y|X}(y|x)=f_Y(y)\)（\(f_X(x)>0\)）

推广，如：假设 X，Y，Z 具有联合连续随机变量，

X，Y，Z 相互独立，当且仅当对于所有 \(x,y,z\)，\(f_{X,Y,Z}(x,y,z)=f_X(x)f_Y(y)f_Z(z)\)

独立性蕴涵：（X 和 Y 任取离散或连续）

\(F_{X,Y}(x,y)=P(X\le x,Y\le y)=P(X\le x)P(Y\le y)=F_X(x)F_Y(y)\)（证明见章节习题）

\(g(X)\) 和 \(h(Y)\) 相互独立

\(E[g(X)h(Y)]=E[g(X)]E[h(Y)]\)

\(\text{var}(X+Y)=\text{var}(X)+\text{var}(Y)\)

独立的正态随机变量

X 和 Y 是相互独立的正态随机变量，期望和方差分别为 \(\mu_x,\mu_y\)，\(\sigma_x^2,\sigma_y^2\)，它们的联合 PDF 为：

\(f_{X,Y}(x,y)=f_X(x)f_Y(y)=\frac1{2\pi\sigma_x\sigma_y}\exp\{-\frac{(x-\mu_x)^2}{2\sigma_x^2}-\frac{(y-\mu_y)^2}{2\sigma_y^2}\}\)

该函数的等高线为以 \((\mu_x,\mu_y)\) 为中心，长短轴（其大小与 \(\sigma_x,\sigma_y\) 正比）分别平行于两个坐标轴的椭圆

该函数的图像鼓起的地方类似于“一颗侧面稍扁的痘痘”

6. 连续贝叶斯准则

条件概率的一个重要的应用是推断问题

贝叶斯的思想大致可以描述为：假设 X 是需要研究（但 X 未被观察或我们直接观察 X）的随机变量，为此我们加入噪声随机变量 Y；已知 X 的分布律，通过测量得到 Y 在 X 条件下的条件分布律；最后，我们通过综合上述已知信息可以推断出噪声 Y 干扰下 X 的条件分布律

连续贝叶斯准则

由 \(f_Xf_{Y|X}=f_{X,Y}=f_Yf_{X|Y}\)，可以得到 \(f_{X|Y}(x|y)=\frac{f_X(x)f_{Y|X}(y|x)}{f_Y(y)}\)，

又由归一化性质 \(\int_{-∞}^{+∞}f_{X|Y}(x|y)~d_x=1\) 得到等价式：

\(f_{X|Y}(x|y)=\frac{f_X(x)f_{Y|X}(y|x)}{\int_{-∞}^{+∞}f_X(t)f_{Y|X}(y|t)~d_t}\)

关于离散随机变量的推断

我们需要研究事件 A（我们不知道 A 是否发生了），A 的概率 \(P(A)\) 已知

设噪声随机变量 Y 是连续的，\(f_{Y|A}(y),f_{Y|A^c}(y)\) 已知

我们感兴趣的是 A 的条件概率 \(P(A|Y=y)\)，然而 \(\{Y=y\}\) 是零概率事件，我们转而考虑事件 \(\{y\le Y\le y+\delta\}\)（\(\delta>0\) 充分小，然后令 \(\delta\to0\)），

利用贝叶斯准则：\(P(A|Y=y)\approx P(A|y\le Y\le y+\delta)=\frac{P(A)P(y\le Y\le y+\delta|A)}{P(y\le Y\le y+\delta)}\approx \frac{P(A)f_{Y|A}(y)\delta}{f_Y(y)\delta}=\frac{P(A)f_{Y|A}(y)}{f_Y(y)}\)

由于 \(f_Y(y)=P(A)f_{Y|A}(y)+P(A^c)f_{Y|A^c}(y)\)，

有 \(P(A|Y=y)=\frac{P(A)f_{Y|A}(y)}{P(A)f_{Y|A}(y)+P(A^c)f_{Y|A^c}(y)}\)

将需要观察的事物推广到离散随机变量 N 上：贝叶斯准则和全概率定理分别变成 \(P(N=n|Y=y)=\frac{p_N(n)f_{Y|N}(y|n)}{f_Y(y)}\)，\(f_Y(y)=\sum\limits_ip_N(i)f_{Y|N}(y|i)\)

于是 \(P(N=n|Y=y)=\frac{p_N(n)f_{Y|N}(y|n)}{\sum\limits_ip_N(i)f_{Y|N}(y|i)}\)

练习：p205

注：我们需要测量的是噪声，进而间接推断我们关心的事物

基于离散观察值的推断

与前面的情况相反，现在噪声随机变量是离散的；于是对贝叶斯准则 \(P(A|Y=y)=\frac{P(A)f_{Y|A}(y)}{f_Y(y)}\) 进行“反转”有：

\(f_{Y|A}(y)=\frac{f_Y(y)P(A|Y=y)}{P(A)}\)，

又由 \(P(A)=\int_{-∞}^{+∞}f_Y(y)P(A|Y=t)~d_t\)，

于是 \(f_{Y|A}(y)=\frac{f_Y(y)P(A|Y=y)}{\int_{-∞}^{+∞}f_Y(t)P(A|Y=t)~d_t}\)

类似地，噪声随机变量为 N 时有： \(f_{Y|N}(y|n)=\frac{f_Y(y)P(N=n|Y=y)}{\int_{-∞}^{+∞}f_Y(t)P(N=n|Y=t)~d_t}\)

连续贝叶斯准则

设 Y 为离散随机变量

若 Y 为离散随机变量：\(f_Y(y)f_{X|Y}(x|y)=f_X(x)f_{Y|X}(y|x)\)

\(f_{X|Y}(x|y)=\frac{f_X(x)f_{Y|X}(y|x)}{f_Y(y)}=\frac{f_X(x)f_{Y|X}(y|x)}{\int_{-∞}^{+∞}f_X(t)f_{Y|X}(y|t)~d_t}\)

若 N 为连续随机变量：\(f_Y(y)P(N=n|Y=y)=p_N(n)f_{Y|N}(y|n)\)

\(P(N=n|Y=y)=\frac{p_N(n)f_{Y|N}(y|n)}{f_Y(y)}=\frac{p_N(n)f_{Y|N}(y|n)}{\sum\limits_ip_N(i)f_{Y|N}(y|i)}\)

\(f_{Y|N}(y|n)=\frac{f_Y(y)P(N=n|Y=y)}{p_N(n)}=\frac{f_Y(y)P(N=n|Y=y)}{\int_{-∞}^{+∞}f_Y(t)P(N=n|Y=t)~d_t}\)

若 A 为某事件：\(f_Y(y)P(A|Y=y)=P(A)f_{Y|A}(y)\)

\(P(A|Y=y)=\frac{P(A)f_{Y|A}(y)}{f_Y(y)}=\frac{P(A)f_{Y|A}(y)}{P(A)f_{Y|A}(y)+P(A^c)f_{Y|A^c}(y)}\)

\(f_{Y|A}(y)=\frac{f_Y(y)P(A|Y=y)}{P(A)}=\frac{f_Y(y)P(A|Y=y)}{\int_{-∞}^{+∞}f_Y(t)P(A|Y=t)~d_t}\)

注：上述 5 个贝叶斯准则均涉及了连续随机变量 Y；其他 4 种形式参考之前的章节