4.随机变量的深入内容

本章引入一些更深入的内容. 我们介绍如下一些有用的方法：

推导出关于一个或者多个随机变量的函数的分布
处理独立随机变量和的问题，包括求和的随机变量的个数自身也是随机的情形
量化两个随机变量之间的相依程度

为实现这些目标, 我们介绍了一些工具，包括矩母函数和卷积，并且我们将细化对条件期望概念的理解

学习第5~7章时, 并不需要本章内容作为基础，因此，在首次阅读本书时可将本章视为选读内容

然而，这里讨论的很多概念和方法为概率论和随机过程提供了更深入的研究背景，并为应用概率论和随机过程的其他学科提供了有力的工具. 但是，4.2 和 4.3 节所提到的概念，是第 8 章和第 9 章中学习统计推断的准备知识

1. 随机变量函数的概率密度函数

随机变量函数的 PDF

假设 X 的概率密度函数已知，计算 \(Y=g(X)\) 的概率密度函数：

计算 Y 的分布函数 CDF：\(F_Y(y)=P(g(X)\le y)=\int_{\{x|g(x)\le y\}}f_X(x)~d_x\)

若 g 单射，有 \(F_Y(y)=P(X\le g^{-1}(y))=F_X(g^{-1}(y))=\int_{-∞}^{g^{-1}(y)}f_X(x)~d_x\)）

或者有 \(F_Y(y)=P(X\ge h(y))=1-P(X\le h(y))=1-F_X(h(y))\)

对 \(F_Y\) 求导，得到 Y 的 PDF：\(f_Y(y)=\frac{dF_Y}{d_y}(y)\)

Tip

\(Y=\sqrt X\)：\(F_Y(y)=y^2\)，\(f_Y(y)=2y\)（\(\sqrt{x_l}\le y\le\sqrt{x_r}\)）
\(Y=\frac kX\)（\(k>0\)）：\(F_Y(y)=1-F_X(\frac ky)\)，\(f_Y(y)=\frac k{y^2}f_X(\frac ky)\)（\(\frac k{x_r}\le y\le \frac k{x_l}\)）
\(Y=X^2\)：\(F_Y(y)=F_X(\sqrt y)-F_X(-\sqrt y)\)，\(f_Y(y)=\frac1{2\sqrt y}[f_X(\sqrt y)+f_X(-\sqrt y)]\)（\(x_l^2\le y\le x_r^2\)）

线性函数

假设随机变量 \(Y=aX+b\) （\(a\ne0\)）是随机变量 X 的线性函数；X 的 PDF 和 CDF 分别为 \(f_X(x),F_X(x)\)

那么 X 的 CDF 为：\(F_Y(y)=\begin{cases}F_X(\frac{y-b}a)&a>0\\1-F_X(\frac{y-b}a)&a<0\end{cases}\)

X 的 PDF 为：\(f_Y(y)=\frac{dF_Y}{d_y}(y)=\frac1{|a|}f_X(\frac{y-b}a)\)（\(ax_l+b\le y\le ax_r+b\) 或 \(ax_r+b\le y\le ax_l+b\)）

从 PDF 的图像上看，\(f_Y\) 将 \(f_X\) 在 x 轴方向上拉长 |a| 倍（若 \(a<0\)，则附带 x 轴方向翻转），而在 y 轴方向上缩短为 \(\frac1{|a|}\) 倍

例1：指数随机变量线性函数的 PDF 为：\(f_Y(y)=\frac\lambda{|a|}e^{-\lambda(y-b)/a}\)（\((y-b)/a\ge 0\)）；\(b=0,a>0\) 时，Y 是参数为 \(\frac\lambda a\) 的指数随机变量

例2：正态随机变量（均值和方差分别为 \(\mu,\sigma\)）线性函数的 PDF 为：\(f_Y(y)=\frac1{\sqrt{2\pi}|a|\sigma}e^{-(y-b-a\mu)^2/(2a^2\sigma^2)}\)；Y 依然为正态随机变量，均值/方差/标准差分别为 \(\mu_y=a\mu+b,\sigma_y^2=a^2\sigma^2,\sigma_y=|a|\sigma\)（这些参数性质不仅限于 X 是正态随机变量）

单调函数

假设随机变量 \(Y=g(X)\)，其中 g 在 X 的取值空间 I（\(对于所有 x\notin I\)，\(f_X(x)=0\)）内严格单调，

那么 g 是可逆的，设其逆为 \(h=f^{-1}\)

易证 Y 的 CDF 为 \(F_Y(y)=\begin{cases}F_X(h(y))&g严格递增\\1-F_X(h(y))&g严格递减\end{cases}\)

Y 的 PDF 为：\(f_Y(y)=|\frac{dh}{d_y}(y)|f_X(h(y))\)（\(g(x_l)\le y\le g(x_r)\) 或 \(g(x_r)\le y\le g(x_l)\)）

对于上述公式的直观理解参见 p234-235

两个随机变量的函数

复合随机变量 \(Z=g(X,Y)\) 的联合 PDF 与一个随机变量的情况类似，但更复杂

计算分布函数；有时用到随机变量之间的独立性，有时用图像来分析 CDF 更方便（注：不等号的改变）

对 CDF 进行微分得到 PDF

例1：X 和 Y 在 \([0,1]\) 上连续均匀分布，且相互独立；结合图像可得到 \(Z=X/Y\) 的 CDF 和 PDF 分别为 \(F_Z(z)=P(\frac YX\le z)=\begin{cases}\frac z2&z\in[0,1]\\1-\frac1{2z}&z>1\\0&其他\end{cases}\)，\(f_Z(z)=P(\frac YX\le z)=\begin{cases}\frac 12&z\in[0,1]\\\frac1{2z^2}&z>1\\0&其他\end{cases}\)

例2：记 X 和 Y 分别是罗密欧和朱丽叶约会时到达的时间(假定约会时刻为0)；X 和 Y 均是参数为 \(\lambda\) 的指数随机变量；设 \(Z=X-Y\)，结合图像可以得到 Z 的 CDF 和 PDF 分别为：\(F_Z(z)=P(X-Y\le z)=\begin{cases}1-\frac12e^{-\lambda z}&z\ge0\\\frac12e^{\lambda z}&z<0\end{cases}\)，\(f_Z(z)=P(X-Y\le z)=\begin{cases}\frac\lambda2e^{-\lambda z}&z\ge0\\\frac\lambda2e^{\lambda z}&z<0\end{cases}=\frac\lambda2e^{-|\lambda| z}\)

这就是著名的双边指数概率密度函数，也称为拉普拉斯概率密度函数

独立随机变量和——卷积

假设 X 和 Y 是两个独立的随机变量，考虑 \(Z=X+Y\) 的分布

若 X 和 Y 都是离散的，Z 的分布列为 \(p_Z(z)=P(Z=z)=P(X+Y=z)=\sum\limits_{\{(x,y)|x+y=z\}}P(X=x,Y=y)=\sum\limits_xP(X=x,Y=z-x)=\sum\limits_xp_X(x)p_Y(z-x)\)

即 \(p_Z(z)=\sum\limits_xp_X(x)p_Y(z-x)\)，\(p_Z(z)\) 称为 X 和 Y 的分布列的卷积

若 X 和 Y 都是连续的：（通过联合 PDF \(f_{X,Z}(x,z)\) 得到 Z 的 PDF \(f_Z(z)\)）

\(F_{Z|X}(z|x)=P(Z\le z|X=x)=P(X+Y\le z|X=x)=P(Y\le z-x|X=x)=P(Y\le z-x)=F_Y(z-x)\)

等式两边对 z 微分有：\(f_{Z|X}(z|x)=f_Y(z-x)\)

\(f_Z(z)=\int_{-∞}^{+∞}f_{X,Z}(x,z)~d_x=\int_{-∞}^{+∞}f_X(x)f_{Y|X}(y|x)~d_x=\int_{-∞}^{+∞}f_X(x)f_Y(z-x)~d_x\)

于是 \(f_Z(z)=\int_{-∞}^{+∞}f_X(x)f_Y(z-x)~d_x\)

（被积函数非零，仅当 \(x\in\{x|x\in D_{f_X},z-x\in D_{f_Y}\}\)）

直观解释详见 p240

应用：\(f_{X-Y}(z)=\int_{-∞}^{+∞}f_X(x)f_{-Y}(z-x)~d_x=\int_{-∞}^{+∞}f_X(x)f_Y(x-z)~d_x\)

独立随机变量卷积(例)

假设 X 和 Y 相互独立，\(Z=X+Y\)
X 和 Y 都是 \([a,b]\) 上的连续均匀分布：\(f_Z(z)=\int_{-∞}^{+∞}f_X(x)f_Y(z-x)~d_x=\int_{\max\{a,z-b\}}^{\min\{b,z-a\}}1~d_x=\min\{b,z-a\}-\max\{a,z-b\}\)（\(z\in[2a,2b]\)）
X 和 Y 都是正态分布：\(f_Z(z)=\int_{-∞}^{+∞}\frac1{\sqrt{2\pi}\sigma_x}\exp\left(-\frac{(x-\mu_x)^2}{2\sigma_x^2}\right)\cdot\frac1{\sqrt{2\pi}\sigma_y}\exp\left(-\frac{(z-x-\mu_y)^2}{2\sigma_y^2}\right)~d_x=\frac1{\sqrt{2\pi}\sqrt{\sigma_x^2+\sigma_y^2}}\exp\left(-\frac{(z-\mu_x-\mu_y)^2}{2(\sigma_x^2+\sigma_y^2)}\right)\)
- 注：上述积分计算较为复杂；\(Z=X+Y\) 也是正态分布；推广：\(aX+bY\) 也是正态的
- 注2：即便 \(Z=X+Y\) 的均值和方差可以通过独立性的性质简单地算出，但是并未提供“Z 是什么分布”的有关信息；于是计算 Z 的卷积是很有必要的
X 和 Y 都是指数分布：\(f_{X-Y}(z)=\int_{-∞}^{+∞}f_X(x)f_Y(x-z)~d_x=\begin{cases}\frac\lambda2e^{-\lambda z}&z\ge0\\\frac\lambda2e^{\lambda z}&z<0\end{cases}\)
1. 由于 X 和 Y 是同分布，因而 \(X-Y\) 有对称性：\(f_{X-Y}(z)=f_{Y-X}(z)=f_{X-Y}(-z)\)

卷积的图像计算法

为了计算卷积 \(f_Z(z)=\int_{-∞}^{+∞}f_X(x)f_Y(z-x)~d_x\)，

我们分别将 \(f_X(x)\)，\(f_Y(z-x)\) 的图像画在二维直角坐标系中，分析它们的乘积的图像，进而通过几何计算面积，得到 \(f_Z(z)\)

其中 \(f_Y(z-x)\) 意味着 \(f_Y(x)\) 先水平翻转，再向右平移 z 个单位长度

2. 协方差，相关

本节介绍如何量化两个随机变量之间关系的大小和方向

该内容非常重要，将应用于在第 8 章和第 9 章的估计方法

协方差

X 和 Y 的协方差定义为 \(\text{cov}(X,Y)=E[(X-E[X])(Y-E[Y])]\)

即 \(\text{cov}(X,Y)=E[\tilde X\tilde Y]\)

不相关性：若 \(\text{cov}(X,Y)=0\)，那么 X 和是不相关的（等价于 \(E[XY]=E[X]E[Y]\)）

协方差的另一种表达：\(\text{cov}(X,Y)=E[XY]-E[X]E[Y]\)（独立性蕴涵不相关性，逆命题不成立）

性质：

\(\text{cov}(X,X)=\text{var}(X)\)

\(\text{cov}(X,aY+b)=a\cdot\text{var}(X,Y)\)

\(\text{cov}(X,Y+Z)=\text{cov}(X,Y)+\text{cov}(X,Z)\)

推广：\(\text{cov}(\sum\limits_{i=1}^nX_i,\sum\limits_{i=1}^mY_i)=\sum\limits_{i=1}^n\sum\limits_{j=1}^m\text{cov}(X_i,Y_j)\)

3. 条件期望，条件方差

本节再次讨论随机变量 X 在给定另一个随机变量 Y 之下的条件期望，可将这个条件期望看成依赖于 Y 的函数，因而成为随机变量

我们将导出全期望定理的另一个版本，称为重期望法则，用通俗的语言说，就是条件期望的期望等于无条件期望

同时，我们也推导全方差法则，该法则涉及条件方差和无条件方差

在本节中，我们研究 \(E[X|Y]\) 的期望和方差；它的性质不仅在本章很重要，而且在第 8 章和第 9 章的估计和统计推断中也特别重要

随机变量 X 的条件期望 \(E[X|Y=y]\) 的值，依赖于 Y 的值 y；因为 \(E[X|Y=y]\) 是 y 的函数，所以 \(E[X|Y]\) 是 Y 的函数

因而 \(E[X|Y]\) 是一个随机变量，即 \(E[X|Y]=g(Y)\)

Info

本节提到的 \(\tilde X=E[X|Y]-X\) 与上文的含义（\(\tilde X=X-E[X]\)）稍有些不同

重期望法则

由期望法则有 \(E[E[X|Y]]=\begin{cases}\sum\limits_yE[X|Y=y]p_Y(y)&Y离散\\\int_{-∞}^{+∞}E[X|Y=y]f_Y(y)~d_y&Y连续\end{cases}\)

根据全期望定理，得到重期望法则： \(E[E[X|Y]]=E[X]\)

条件期望的性质：\(E[Xg(Y)|Y]=g(Y)E[X|Y]\)（在 Y 的条件下，\(g(Y)\) 是一个常数）

例子

设硬币出现正面的概率为随机变量 Y（Y 在 \([0,1]\) 上连续均匀分布），n 次独立抛硬币出现正面的次数为随机变量 X：\(E[X|Y]=nY\)（二项分布的性质），\(E[Y]=\frac12\)（连续均匀分布的性质）；使用重期望法则有 \(E[X]=E[E[X|Y]]=E[nY]=nE[Y]=\frac n2\)
设长度为 l 的木根，每次将木根折成两半（每一处被选为折断点的机会均等），并丢弃另一半：设折第 i 次后剩余木根的长度为随机变量 \(X_i\)，其期望长度为 \(E[X_n]=E[E[X_i|X_{i-1}]]=E[\frac12X_{i-1}]=\frac12E[X_{i-1}]\)（特别地，\(X_0=E[X_0]=l\)）
利用组内平均成绩计算全部平均成绩的方法
\(\Delta=E[X_i|X_{i-1}]-E[X_i]\) 的期望：\(E[E[X_i|X_{i-1}]-E[X_i]]=E[E[X_i|X_{i-1}]]-E[X_i]=E[X_i]-E[X_i]=0\)

条件期望作为估计量

假设我们将 Y 视为能提供关于 X 的信息的观测值，则我们将条件期望作为给定 Y 的条件下对 x 的估计，记为 \(\hat X=E[X|Y]\)

估计误差定义为：\(\tilde X=\hat X-X\)

估计误差 \(\tilde X\) 在 Y 下的条件期望为 \(E[\tilde X|Y]=E[(\hat X-X)|Y]=E[\hat X|Y]-E[X|Y]=\hat X-\hat X=0\)

（注：\(\hat X\) 在 Y 的条件下是常数）

所以对于所有 y，都有 \(E[\tilde X|Y=y]=0\)

估计误差没有系统性的正或负的偏倚：根据[重期望法则]，\(E[\tilde X]=E[E[\tilde X|Y]]=E[0]=0\)（推论：\(\text{var}(\tilde X)=E[\tilde X^2]\)）

\(E[\hat X\tilde X]=E[E[\hat X\tilde X|Y]]=E[\hat XE[\tilde X]]=0\) (1)

估计 \(\hat X\) 与估计误差 \(\tilde X\) 不相关：\(\text{cov}(\hat X,\tilde X)=E[\hat X\tilde X]-E[\hat X]E[\tilde X]=0\)

\(\text{cov}(\hat X,\tilde X)=0\) 和 \(X=\hat X+\tilde X\) 蕴涵 \(\text{var}(X)=\text{var}(\hat X)+\text{var}(\tilde X)\)

条件方差，全方差法则

随机变量 \(\text{var}(X|Y)=E[(X-E[X|Y])^2|Y]=E[\tilde X^2|Y]\) 是关于 Y 的函数，即 \(\text{var}(X|Y)=g(Y)\)

给定条件 \(\{Y=y\}\) 之下，X 的条件方差为 \(\text{var}(X|Y=y)=E[\tilde X^2|Y=y]\)

估计误差的方差：\(\text{var}(\tilde X)=E[(\tilde X-E[\tilde X])^2]=E[\tilde X^2]=E[E[\tilde X^2|Y]]=E[\text{var}(X|Y)]\)

再由 \(\text{var}(X)=\text{var}(\hat X)+\text{var}(\tilde X)\)，

得到全方差法则：\(\text{var}(X)=E[\text{var}(X|Y)]+\text{var}(E[X|Y])\)

例子

设硬币出现正面的概率为随机变量 Y（Y 在 \([0,1]\) 上连续均匀分布），n 次独立抛硬币出现正面的次数为随机变量 X：
- 于是在 Y 的条件下：\(E[X|Y]=nY\)，\(\text{var}(X|Y)=nY(1-Y)\)
- 根据全方差法则：\(\text{var}(X)=\text{var}(E[X|Y])+E[\text{var}(X|Y)]=\text{var}(nY)+E[nY(1-Y)]=n\text{var}(Y)+nE[Y]-nE[Y^2]=\frac{n^2}{12}+\frac n2-\frac n3=\frac{n^2+2n}{12}\)
设长度为 l 的木根，每次将木根折成两半（每一处被选为折断点的机会均等），并丢弃另一半；设折第 i 次后剩余木根的长度为随机变量 \(X_i\)：
1. 第一次折木：\(E[X_1]=\frac l2,E[X_1^2]=\frac{l^2}3,\text{var}(X_1)=\frac{l^2}{12}\)
2. 第二次折木：\(E[X_2|X_1]=\frac{X_1}2,\text{var}(X_2|X_1)=\frac{X_1^2}{12}\)
3. 根据全方差法则：\(\text{var}(X_2)=\text{var}(E[X_2|X_1])+E[\text{var}(X_2|X_1)]=\text{var}(\frac{X_1}2)+E[\frac{X_1^2}{12}]=\frac14\text{var}(X_1)+\frac1{12}E[X_1^2]=\frac14\cdot\frac{l^2}{12}+\frac1{12}\cdot\frac{l^2}3=\frac{7l^2}{144}\)
学生成绩的方差与分组方差：参见p253-254
通过构造条件来计算方差：参见p254-255

条件期望，条件期望的性质（总结）

\(E[X|Y=y]\) 的值依赖于 y

\(E[X|Y]\) 是随机变量 Y 的函数，因此它也是一个随机变量；当 Y 的值为 y 时，它的值就等于 \(E[X|Y=y]\)

重期望法则：\(E[X]=E[E[X|Y]]\)

\(E[X|Y=y]\) 可视为已知 \(Y=y\) 时对 X 的估计；相应的估计误差 \(E[X|Y]-X\) 是一个零均值的随机变量，且与 \(E[X|Y]\) 不相关

\(\text{var}(X|Y)\) 也是个随机变量；当 Y 的值为 y 时，它的值就等于 \(\text{var}(X|Y=y)\)

全方差法则：\(\text{var}(X)=E[\text{var}(X|Y)]+\text{var}(E[X|Y])\)

4. 矩母函数(MGF)

Moment Generating Function

在本节中，我们引进与随机变量相关的矩母函数这个概念

矩母函数是对概率(如：分布列，概率密度函数)的另一种表述

它并不是特别直观的，但是在解决某些类型的数学计算时很方便

矩母函数

与随机变量 X 的相关的矩母函数是参数为 s 的函数 \(M_X(s)=E[e^{sX}]\)（仅当 \(E[e^{sX}]\) 存在）

从上下文中可以明显看出所指随机变量是 X 时，矩母函数简记为 \(M(s)\)

X 是离散随机变量时：\(M(s)=\sum\limits_xe^{sx}p_X(x)\)

X 是连续随机变量时：\(M(s)=\int_{-∞}^{+∞}e^{sx}f_X(x)~d_x\)

注：一个连续随机变量的相关矩母函数和它的概率密度函数的拉普拉斯变换是基本相同的，唯一的区别是拉普拉斯变换通常使用 \(e^{-sx}\) 而不是 \(e^{sx}\)；对于离散型的情况，变量 z 有时取代 \(e^s\)，得到矩母函数 \(M(z)=\sum\limits_xz^xp_X(x)\)，称作 z-变换

性质：\(M_X(0)=1\)；\(\lim\limits_{s\to-∞}M_X(s)=P(X=0)\)（X 仅取非负整数值）

矩母函数的例子

伯努利\((p)\)：\(M(s)=e^{s\cdot0}(1-p)+e^{s\cdot1}p=1-p+e^sp\)
二项\((n,p)\)：\(M(s)=\sum\limits_{i=0}^ne^{si}\binom nip_i(1-p)^{n-i}=(1-p+e^sp)^n\)（n 个独立伯努利随机变量之和的矩母函数，等于这些随机变量的矩母函数之积）
泊松\((\lambda)\)：\(M(s)=\sum\limits_{x=0}^∞e^{sx}\frac{e^{-\lambda}\lambda^x}{x!}=e^{\lambda(e^s-1)}\)
几何\((p)\)：\(M(s)=\sum\limits_{i=1}^∞e^{si}p(1-p)^{i-1}=\frac{pe^s}{1-(1-p)e^s}\)（\(s<-\ln(1-p)\) 时收敛）
离散均匀\((a,b)\)：\(M(s)=\sum\limits_{i=a}^be^{si}\frac1{b-a+1}=\frac{e^{as}[e^{(b-a+1)s}-1]}{(b-a+1)(e^s-1)}=\frac{e^{(b+1)s}-e^{as}}{(b-a+1)(e^s-1)}\)
连续均匀\((a,b)\)：\(M(s)=\int_a^be^{sx}\frac1{b-a}~d_x=\frac{e^{bs}-e^{as}}{s(b-a)}\)
指数\((\lambda)\)：\(M(s)=\int_{0}^{+∞}e^{sx}\lambda e^{-\lambda x}~d_x=\frac{\lambda}{\lambda-s}\)（仅当 \(s<\lambda\) 时积分收敛）
随机变量的线性函数 \(Y=aX+b\)：\(M_Y(s)=E[e^{s(aX+b)}]=e^{sb}E[e^{(sa)X}]=e^{sb}M_X(sa)\)
标准正态\((0,1)\)：\(M_Y(s)=\int_{-∞}^{+∞}e^{sy}\frac1{\sqrt{2\pi}}e^{-y^2/2}~d_y=e^{s^2/2}\)
- 注：积分用到了正态分布的归一化性质
正态\((\mu,\sigma^2)\)：若 \(X=\sigma Y+\mu\)（Y 为标准正态随机变量），那么 \(M_X(s)=M_Y(s\sigma)e^{s\mu}=e^{(s\sigma)^2/2+s\mu}\)

“矩母函数” 这一名称由于随机变量的矩可以通过矩母函数的公式轻易计算出得来的

从矩母函数到矩

\(\frac{d}{d_s}M(s)=\frac{d}{d_s}\int_{-∞}^{+∞}e^{sx}f_X(x)~d_x=\int_{-∞}^{+∞}\frac{d}{d_s}e^{sx}f_X(x)~d_x\)

于是有结论：\(\frac{d}{d_s}M(s)=\frac{d}{d_s}M(s)=E[\frac{d}{d_s}e^{sX}]=E[Xe^{sX}]\) (1)

s 取零时，\(\frac{d}{d_s}M(s)|_{s=0}=E[X]\)

将式 (1) 推广，有：\([M(s)]^{(n)}=E[(e^{sX})^{(n)}]=E[X^ne^{sX}]\) （对 s 进行 n 次求导）

于是 \([M(s)]^{(n)}|_{s=0}=E[(e^{sX})^{(n)}]|_{s=0}=E[X^n]\)

也可以记为 \(E[X^n]=M^{(n)}(0)\)

n 阶矩

泊松：\(E[X]=a_1\)，\(E[X^i]=f(E[X^{i-1}])\)（其中 \(a_i=\lambda^i\)，\(f(a_i)=a_{i+1}+ia_i\)）
1. 令 \(g_n(k)=g_{n-1}(k-1)+kg_{n-1}(k)\) 为 n 阶矩的第 i 次项系数（由于 \(E[X^n]\) 是关于 \(\lambda\) 的 n 次多项式）
2. 解得 n 阶矩的多项式系数之间的递推式： \(g_n(k)=k^n\sum\limits_{i=k}^n\frac{g_{i-1}(k-1)}{k^i}\)；\(g_n(1)=1,g_n(2)=2^{n-1}-1\)（参考递归式求解）
3. 于是 \(E[X^n]=\sum\limits_{k=1}^ng_n(k)\lambda^k\)
指数：\(E[X^n]=\frac{n!}{\lambda^n}\)

矩母函数 \(M_X(s)\) 的一个非常重要的性质是它可逆，即可用它来确定随机变量 X 的概率律

当然，为了使矩母函数 \(M_X(s)\) 能够确定相应的概率律，一些合适的数学条件是必要的；幸运的是，我们所列举的例子中的矩母函数都满足这些条件

矩母函数的可逆性

若随机变量 X 的矩母函数 \(M_X(x)\) 满足：存在一个正数 \(a>0\)，对于所有 \(s\in[-a,a]\)，\(M_X(x)\) 都是有限的，则矩母函数 \(M_X(x)\) 唯一地决定 X 的分布函数

\(M(s)\) 若能表示为，\(M(s)=\sum\limits_ie^{a_is}b_i\)，那么 \(p_x(a_i)=P(X=a_i)=b_i\)

Tip

\(X_1,\dots,X_n\) 为 PDF \(f_{X_1},\dots,f_{X_n}\) 的连续随机变量；随机变量 Y 的一个值 y 是这样取得的：随机地选出指标 i，选到 i 的概率为 \(p_i\)，若指标 i 倍选中，y 即取 \(X_i\) 的值；此时 Y 的 PDF 为 \(f_Y(y)=\sum\limits_{i=1}^np_if_{X_i}(y)\)

矩母函数的方法对于处理随机变量之和的问题尤其便利

我们将看到，独立随机变量的和的矩母函数是和项的矩母函数的乘积，这样也提供了卷积公式之外的另一个便利的公式

独立随机变量和

假设有两个随机变量 X 和 Y，并且随机变量 \(Z=X+Y\)，有 \(M_Z(s)=E[e^{sZ}]=E[e^{s(X+Y)}]=E[e^{sX}e^{sY}]\)

若 X 和 Y 独立，那么 \(M_Z(s)=E[e^{sX}]E[e^{sY}]=M_X(s)M_Y(s)\) 或 \(M_{X+Y}(s)=M_X(s)M_Y(s)\)

推广：设 \(Z=\sum\limits_{i=1}^nX_i\)，那么 \(M_z(s)=\prod\limits_{i=1}^nM_{X_i}(s)\)

例子

n 个独立伯努利随机变量之和
n 个独立泊松随机变量之和的矩母函数：\(M_Z(s)=\prod\limits_{i=1}^nM_{X_i}(s)=\prod\limits_{i=1}^ne^{\lambda_i(e^s-1)}=e^{\sum\limits_{i=1}^n\lambda_i(e^s-1)}\)（Z 是参数为 \(\sum\limits_{i=1}^n\lambda_i\) 的泊松随机变量）
n 个独立正态随机变量之和的矩母函数：\(M_Z(s)=\prod\limits_{i=1}^nM_{X_i}(s)=\prod\limits_{i=1}^ne^{(s\sigma_i)^2/2+\mu_i}=e^{\frac{s^2}2\sum\limits_{i=1}^n\sigma_i^2+\sum\limits_{i=1}^n\mu_i}\)（Z 为均值，方差分别为 \(\sum\limits_{i=1}^n\mu_i,\sum\limits_{i=1}^n\sigma_i^2\) 的正态随机变量）

联合分布的矩母函数

若两个随机变量 X 和 Y 具有联合 PDF，那么每个变量都有一个矩母函数 \(M_X(s)\)，\(M_Y(s)\)，它们是边缘分布的矩母函数（不包含关于这两个随机变量相依性的信息）

同一试验中的 n 个随机变量 \(X_1,\dots,X_n\)，记 \(s_1,\dots,s_n\) 为无量纲实参数

多元矩函数是 n 个参数的函数，定义为：\(M_{X_1,\dots,X_n}(s_1,\dots,s_n)=E[e^{\sum\limits_{i=1}^ns_iX_i}]\)

注：矩母函数的可逆性可以推广到多元情形，即如果 \(Y_1,\dots,Y_n\) 是另一组随机变量，且 \(M_{X_1,\dots,X_n}(s_1,\dots,s_n)\) 与 \(M_{Y_1,\dots,Y_n}(s_1,\dots,s_n)\) 相同，则 \(X_1,\dots,X_n\) 的联合分布与 \(Y_1,\dots,Y_n\) 的联合分布相同

矩母函数的三个应用

计算随机变量的 n 阶矩
计算 n 个独立随机变量之和的矩母函数（进而能讨论其分布性质）
计算总数为随机数的随机变量之和的分布

5. 随机数个相互独立的随机变量之和

到现在为止，我们讨论过的随机变量求和的问题中，总是假定随机变量个数是已知且固定的

在本节中，我们考虑这样的情况：在随机变量求和的过程中，随机变量的数目本身也是随机的

随机数个相互独立的随机变量之和(推导过程)

假设 \(X_1,X_2,\dots\) 是同分布的随机变量，\(N,X_1,X_2,\dots\) 彼此独立（这些随机变量的任意有限子集都是独立的）

设 \(Y=\sum\limits_{i=1}^NX_i\)，分别讨论 \(E[Y]\)，\(\text{var}(Y)\)，\(M_Y(s)\)：

由于 \(E[Y|N=n]=E[\sum\limits_{i=1}^NX_i|N=n]=E[\sum\limits_{i=1}^nX_i|N=n]=E[\sum\limits_{i=1}^nX_i]=nE[X_i]\)，得到 \(E[Y|N]=NE[X_i]\) （任取 \(i=1..n\)）

(1) 根据重期望法则有：\(E[Y]=E[E[Y|N]]=E[NE[X_i]]=E[N]E[X_i]\) （任取 \(i=1..n\)）

由于 \(\text{var}(Y|N=n)=\text{var}(\sum\limits_{i=1}^NX_i|N=n)=\text{var}(\sum\limits_{i=1}^nX_i)=n\text{var}(X_i)\)，得到 \(\text{var}(Y|N)=N\text{var}(X_i)\)（任取 \(i=1..n\)）

(2) 根据全方差法则有：\(\text{var}(Y)=\text{var}(E[Y|N])+E[\text{var}(Y|N)]=\text{var}(NE[X_i])+E[N\text{var}(X_i)]=E[X_i]^2\text{var}(N)+\text{var}(X_i)E[N]\)（任取 \(i=1..n\)）

由于 \(E[e^{sY}|N=n]=E[\prod\limits_{i=1}^Ne^{sX_i}|N=n]=E[\prod\limits_{i=1}^ne^{sX_i}]=\prod\limits_{i=1}^nE[e^{sX_i}]=[M_{X_i}(s)]^n\)，有 \(E[e^{sY}|N]=[M_{X_i}(s)]^N\)（任取 \(i=1..n\)）

(3)：根据重期望法则有：\(M_Y(s)=E[e^{sY}]=E[E[e^{sY}|N]]=E[[M_X(s)]^N]=\sum\limits_{i=1}^∞[M_X(s)]^ip_N(n)\)

而 N 的矩母函数有类似的形式 \(M_N(s)=E[e^{sN}]=\sum\limits_{i=1}^∞(e^s)^ip_N(i)\)

随机数个相互独立的随机变量之和

假设 \(X_1,X_2,\dots\) 是同分布的随机变量，\(N,X_1,X_2,\dots\) 彼此独立（这些随机变量的任意有限子集都是独立的）

设 \(Y=\sum\limits_{i=1}^NX_i\)，分别讨论 \(E[Y]\)，\(\text{var}(Y)\)，\(M_Y(s)\)：

\(E[Y]=E[N]E[X_i]\)

\(\text{var}(Y)=E[X_i]^2\text{var}(N)+\text{var}(X_i)E[N]\)

\(M_Y(s)=\sum\limits_{i=1}^∞[M_X(s)]^ip_N(n)\)

\(M_N(s)=\sum\limits_{i=1}^∞(e^s)^ip_N(i)\) 与 \(X_Y(s)\) 有类似形式：若 \(g(e^s)=M_N(s)\)，那么 \(g(M_X(s))=M_Y(s)\)

注：N 一般具有上限值

例子

有 3 个加油站，每家加油站任意一天营业的概率是 \(\frac12\)，并且加油站之间营业与否相互独立；各家加油站汽油存量是相互独立的随机变量，在 0 到 1000 加仑之间均匀分布：
1. 假设营业加油站的数目 N 是参数为 \(p=1/2\) 的二项随机变量，其矩母函数为 \(M_N(s)=(1-p+pe^s)^3=\frac18(1+e^s)^3\)（设 \(g(e^s)=M_N(s)\)）
2. 每个加油站汽油存量 \(X_i\) 的矩母函数为 \(M_{X_i}(s)=\frac{e^{1000s}-1}{1000s}\)
3. 汽油总量 \(Y=\sum\limits_{i=1}^3X_i\) 的矩母函数为 \(M_Y(s)=g(M_{X_i}(s))=\frac18(1+\frac{e^{1000s}-1}{1000s})^3\)
潘子为了买《算法导论》需要逛很多书店，每家书店有这本书的概率是 p，并且相互独立；潘子在每家书店停留的时间满足参数为 \(\lambda\) 的指数分布，停留时间与其他任何事情都独立；潘子会一直找，直到他找到了《算法导论》：
1. 分析：书店数目 N 是参数为 p 的几何随机变量；第 i 家书店停留时间为 \(X_i\)（服从参数为 \(\lambda\) 的指数分布），停留总时间为 \(Y=\sum\limits_{i=1}^NX_i\)
2. \(E[Y]=E[N]E[X]=\frac1p\cdot\frac1\lambda\)
3. \(\text{var}(Y)=E[X_i]^2\text{var}(N)+\text{var}(X_i)E[N]=\frac1{\lambda^2}\cdot\frac{1-p}{p^2}+\frac1{\lambda^2}\cdot\frac1p=\frac1{(\lambda p)^2}\)
4. 由 \(M_X(s)=\frac\lambda{\lambda-s},M_N(s)=\frac{pe^s}{1-(1-p)e^s}\) 有：\(M_Y(s)=\frac{p\frac\lambda{\lambda-s}}{1-(1-p)\frac\lambda{\lambda-s}}=\frac{p\lambda}{p\lambda-s}\)
5. 结论：Y 也服从参数为 \(p\lambda\) 的指数分布（这个结果很令我们惊讶，因为定数 n 个独立指数随机变量和反而不服从指数分布；例如，当 n=2 时，变量和的矩母函数为 \((\frac{\lambda}{\lambda-s})^2\)，这与指数随机变量的矩母函数不相符）
个数服从几何分布的独立几何随机变量之和：记 N 服从参数为 p 的几何分布；记每个随机变量 \(X_i\) 服从参数为 q 的几何分布（这些随机变量相互独立）；记 \(Y=\sum\limits_{i=1}^N\)
1. \(M_N(s)=\frac{pe^s}{1-(1-p)e^s},M_X(s)=\frac{qe^s}{1-(1-q)e^s}\)
2. \(M_Y(s)=\frac{q\frac{pe^s}{1-(1-p)e^s}}{1-(1-q)\frac{pe^s}{1-(1-p)e^s}}=\frac{pqe^s}{1-(1-pq)e^s}\)
3. 也就是说，Y 也服从参数为 \(pq\) 的几何分布

4.随机变量的深入内容

1. 随机变量函数的概率密度函数

2. 协方差，相关

3. 条件期望，条件方差

4. 矩母函数(MGF)

5. 随机数个相互独立的随机变量之和

6. 小节和讨论