跳转至

5.极限定理

在本章里,我们讨论随机变量序列的渐进性质

\(X_1,X_2,\dots\)独立同分布的随机变量序列,公共分布 的均值为 \(\mu\),方差为 \(\sigma^2\)

定义该随机变量序列的部分和\(S_n=\sum\limits_{i=1}^nX_i\)

本章的极限理论研究 \(S_n\) 以及与 \(S_n\) 相关的变量在 \(n\to∞\) 时的极限性质

显然 \(E[S_n]=n\mu\)

由于随机变量序列各项之间的独立性有 \(\text{var}(S_n)=\sum\limits_{i=1}^n\text{var}(X_i)=n\sigma^2\)

定义样本均值\(M_n=\frac{\sum\limits_{i=1}^nX_i}n=\frac{S_n}n\)

于是 \(E[M_n]=E[\frac{S_n}n]=\frac1nE[S_n]=\mu\)\(\text{var}(M_n)=\text{var}(\frac{S_n}n)=\frac1{n^2}\text{var}(S_n)=\frac{\sigma^2}n\)

其中 \(\lim\limits_{n\to∞}\text{var}(M_n)=0\),这意味着 \(M_n\) 的分布大部分就必然与均值 \(\mu\) 特别接近

这种现象就是大数定律的内容,即随机变量序列 \(M_n\),从大样本意义上看,收敛于 \(X_i\) 的均值 \(\mu\)

按通常的解释,当样本量很大的时候,从 X 抽取的样本平均值就是 \(E[X]\),大数定律就为此提供了一个数学理论基础

考虑另一个随机变量序列:\(S_n\) 减去 \(n\mu\)\(E[S_n]\))得到零均值随机变量序列 \(S_n-n\mu\),然后除以 \(\sigma\sqrt{n}\)\(\sqrt{\text{var}(S_n)}\)),得到随机变量序列:

\(Z_n=\frac{S_n-E[S_n]}{\sqrt{\text{var}(S_n)}}=\frac{S_n-n\mu}{\sqrt n\sigma}\)

易证 \(E[Z_n]=0\)\(\text{var}(Z_n)=1\)\(Z_n\) 的均值与方差都不依赖于样本容量 n,因此它既不发散,也不收敛于一点)

中心极限定理就研究研究 \(Z_n\) 的分布的渐进性质,并且得出结论:当 n 充分大的时候,\(Z_n\) 的分布就接近于标准正态分布

随机变量\参数 记号 均值 方差
随机变量(独立同分布) \(X_i\) \(\mu\) \(\sigma^2\)
部分和序列 \(S_n=\sum\limits_{i=1}^nX_i\) \(n\mu\) \(n\sigma^2\)
样本均值序列 \(M_n=\frac{S_n}n\) \(\mu\) \(\frac{\sigma^2}n\)
零均值随机变量序列 \(S_n-n\mu\) \(0\) \(n\sigma^2\)
\(Z_n=\frac{S_n-E[S_n]}{\sqrt{\text{var}(S_n)}}=\frac{S_n-n\mu}{\sqrt n\sigma}\) \(0\) \(1\)

极限理论的用处

  1. 从理论上看,极限理论为期望(或概率)和独立同分布试验序列之间的联系提供了合理的解释
  2. 极限理论提供了 \(Z_n\) 等随机变量序列当样本量 n 充分大时的渐近性质;与精确方法比较,为了了解 \(Z_n\) 的性质,精确方法需要计算 \(Z_n\) 的分布列或概率密度函数,但是在 n 充分大的时候,这些计算是非常复杂而且不得要领
  3. 在使用大量观测数据集时,极限理论在统计推断中发挥主要的作用

1. 马尔科夫和切比雪夫不等式

本节介绍一些重要的不等式.这些不等式使用随机变量的均值和方差去分析事件的概率

在随机变量 X 的均值和方差易于计算,但分布不知道或不易计算时,这些不等式就非常有用

马尔可夫不等式

假设随机变量 X 只取非负值,则对于所有 \(a>0\),都有 \(P(X\ge a)\le\frac{E[X]}a\)

注:马尔可夫不等式给出了 X 不小于某个正数的概率的上界

证明:假设随机变量 \(X\ge0\),并且 \(a>0\)

构造 X 的一个函数:\(Y_a=\begin{cases}0&X<a\\a&X\ge a\end{cases}\)

其中 \(Y_a\le X\)

于是 \(E[Y_a]=\int_a^{+∞}af_X(x)~d_x\le\int_0^{+∞}xf_X(x)~d_x=E[X]\)

又因为 \(E[Y_a]=a\int_a^{+∞}f_X(x)~d_x=aP(X\ge a)\),所以有 \(P(X\ge a)\le\frac{E[X]}a\)

注:若 \(a<0\),那么 \(E[Y_a]=aP(X\ge a)=a\le E[X]\)\(P(X\le a)\ge\frac{E[X]}a\)(不等式左侧等于 1)

\(\blacksquare\)

Tip

  • \(g(X)\ge h(X)\),则 \(E[g(X)]\ge E[h(x)]\)

例子

  1. X 服从 \([0,4]\) 上的均匀分布,且 \(E[X]=2\)
  2. 由马尔可夫不等式有:\(P(X\ge 2)\le 1,P(X\ge 3)\le\frac23=0.67,P(X\ge5)\le0.5\)
  3. 而精确值:\(P(X\ge2)=0.5,P(X\ge 3)=0.25,P(X\ge4)=0\)
  4. 可以看出由马尔可夫不等式给出的上界与真实概率相差非常远
  5. 注:注意马尔可夫不等式的条件(\(X\ge0,a>0\)),如:\([-1,4]\) 上的均匀分布是不满足的

下面介绍切比雪夫不等式

粗略地讲,切比雪夫不等式是指如果一个随机变量的方差非常小的话,那么该随机变量取远离均值 \(\mu\) 的概率也非常小

切比雪夫不等式

若随机变量 X 的均值为 \(\mu\),方差为 \(\sigma^2\)

则对于所有 \(c>0\),都有 \(P(|X-\mu|\ge c)\le\frac{\sigma^2}{c^2}\)

严格形式:\(P(|X-E[X]|\ge c)\le\frac{\text{var}(X)}{c^2}\)

注:切比雪夫不等式指出 X 在邻域 \(U(\mu,c)=\{x~|~|x-\mu|<c\}\) 之外的上界

等价式:\(P(X\notin U(\mu,c))\le\frac{\sigma^2}{c^2}=\frac{\text{var}(X)}{c^2}\)\(P(|X-\mu|\ge \sqrt a)\le\frac{\sigma^2}a=\frac{\text{var}(X)}a\)

\(c=k\sigma\)\(k>0\)),那么有 \(P(|X-\mu|\ge k\sigma)\le\frac{\sigma^2}{(k\sigma)^2}=\frac1{k^2}\)

证明:

假设随机变量 X 的均值和期望分别为 \(\mu,\sigma^2\)

将非负随机变量 \((X-\mu)^2\) 代入马尔可夫不等式有:\(P((X-\mu)^2\ge a)\le \frac{E[(X-\mu)^2]}a=\frac{\text{var}(X)}a=\frac{\sigma^2}a\)(对于所有 \(a>0\)

由于 \((X-\mu)^2\ge a\) 等价于 \(|X-\mu|\ge \sqrt a\),于是 \(P(|X-\mu|\ge \sqrt a)\le\frac{\sigma^2}a\)

\(c=\sqrt a>0\),则有 \(P(|X-\mu|\ge c)\le\frac{\sigma^2}{c^2}\)

\(\blacksquare\)

例子

  1. X 服从 \([0,4]\) 上的均匀分布,\(\mu=\frac14,\sigma^2=\frac{4^2}12=\frac43\)\(P(|X-2|\ge1)\le\frac43\)(而概率永远不会超过 1,所以这个不等式不提供任何信息)
  2. X 服从 \(\lambda=1\) 的指数分布,\(E[X]=\text(var)(X)=1\)\(P(X\ge c)=P(X-1\ge c-1)\le P(|X-1|\ge c-1)\le\frac1{(c-1)^2}\),而 \(P(X\ge c)=e^{-c}\)(可以看出由切比雪夫不等式给出的上界比较保守)

切比雪夫不等式的上界

若 X 的取值空间是 \([a,b]\),可以证明 \(\sigma^2\le\frac{(b-a)^2}4\)

证明详见 p 294

2. 弱大数定律

弱大数定律是指独立同分布的随机变量序列的样本均值,在大样本的情况下,以很大的概率与随机变量的均值非常接近

独立同分布随机变量序列 \(X_1,X_2,\dots\) 的公共分布均值为 \(\mu\),方差为 \(\sigma^2\)

样本均值为 \(M_n=\frac1n\sum\limits_{i=1}^nX_i\)

根据前文有 \(M_n\) 的均值和方差:\(E[M_n]=\mu\)\(\text{var}(M_n)=\frac{\sigma^2}n\)

利用切比雪夫不等式,对于所有 \(\epsilon>0\) \(P(|M_n-E[M_n]|\ge\epsilon)\le\frac{\text{var}(M_n)}{\epsilon^2}\)

于是 \(P(|M_n-\mu|\ge\epsilon)\le\frac{\sigma^2}{n\epsilon^2}\)

弱大数定律

\(X_1,X_2,\dots\) 独立同分布,其公共分布均值为 \(\mu\)

对于所有 \(\epsilon>0\),当 \(n\to∞\)\(P(|M_n-\mu|\ge\epsilon)=P(|\frac1n\sum\limits_{i=1}^nX_i-\mu|\ge\epsilon)\to0\)

注:弱大数定律指出对于充分大的 n,\(M_n\) 的分布的大部分都集中在 \(\mu\) 附近,\(M_n\) 位于 \([\mu-\epsilon,\mu+\epsilon]\) 的概率非常大(\(n\to∞\) 时,该概率趋近于 1);当然当 \(\epsilon\) 非常小时,则需要更大的 n,使得 \(M_n\) 以很大的概率落在该区间内

注2:\(\text{var}(X_i)\) 无界时,弱大数定律仍然成立;上述弱大数定律需要假设 \(E[X_i]\)有限

我的理解:n 充分大时,样本均值 \(M_n\) 任意地接近 \(X_i\) 的均值 \(E[X_i]\)

如:\(X_i\) 是伯努利试验时,\(M_n\) 有特殊的含义——频率,而 \(E[X_i]=p\) 也就是事件 A 的概率;也就是说,n 充分大时,事件 A 发生的频率任意地接近事件 A 的概率 p

例子

  1. 概率与频率:n 次独立重复的伯努利试验中,记 \(M_n\) 为事件 A 发生的次数占总试验次数 n 的比例,\(M_n\) 通常称为事件 A 的频率,而 \(E[X_i]=p\);n 充分大时,事件 A 发生的频率任意地接近事件 A 的概率 p
  2. 选举问题:设 p 为选民支持某候选人的比例,现在“随机”(选民之间独立同分布)地对 n 个选民进行调查,计算这 n 个选民对候选人的支持率 \(M_n\),我们将 \(M_n\) 视为 p 的估计;假设我们希望估计量 \(M_n\) 与 真值 p 相差不到 0.01 的概率至少超过 \(95\%\),则至少需要调查多少人?
    1. 上述试验仍然是 独立重复的伯努利试验;上述问题意味着 \(P(M_n\in U(p,0.01))\ge 0.95\),也即 \(P(M_n\notin U(p,0.01))\le 1-0.95=0.05\) (1)
    2. 由弱大数定律(或切比雪夫不等式)有 \(P(M_n\notin U(p,0.01))\le \frac{\text{var}(M_n)}{0.01^2}=\frac{\sigma^2/n}{0.01^2}=\frac{p(1-p)}{0.01^2n}\) (2)
    3. 要使不等式 (1) 恒成立,一个充分条件是 \(\max\{\frac{p(1-p)}{0.01n}\}\le 0.05\)
    4. 又因为 \(\max\{\frac{p(1-p)}{0.01^2n}\}=\frac{1/4}{0.01^2n}=\frac1{4\cdot0.01^2n}\),于是 \(\frac1{4\cdot0.01^2n}\le0.05\)\(n\le 5\cdot10^4\)

弱大数定律应用

独立重复的伯努利试验中,

假设估计值 \(M_n=\frac{\sum\limits_{i=1}^n}n\) 与真值 p 相差严格小于 \(\epsilon\) 的概率不小于 \(\delta\),计算样本容量 n 的一个下界(\(0\le\epsilon,\delta\le 1\)

问题等价于 \(P(M_n\in U(p,\epsilon))\ge \delta\),等价于 \(P(M_n\notin U(p,\epsilon))\le 1-\delta\) (1)

在该试验中 \(E[M_n]=E[X_i]=p,\text{var}(M_n)=\frac{\text{var}(X_i)}n=\frac{p(1-p)}n\)

根据切比雪夫不等式 \(P(M_n\notin U(E[M_n],\epsilon))\le\frac{\text{var}(M_n)}{\epsilon^2}\),等价于 \(P(M_n\notin U(p,\epsilon))\le\frac{p(1-p)}{n\epsilon^2}\)

不等式 (1) 恒成立的一个充分条件是 \(\max\{\frac{p(1-p)}{n\epsilon^2}\}\le 1-\delta\)

\(\max\{\frac{p(1-p)}{n\epsilon^2}\}\le \frac1{4n\epsilon^2}\),于是 \(\frac1{4n\epsilon^2}\le 1-\delta\),即 \(n\ge\frac1{4\epsilon^2(1-\delta)}\)

结论1:估计值 \(M_n\) 与真值 p 相差严格小于 \(\epsilon\) 的概率不小于 \(\delta\) 时,n 的一个下界是 \(\frac1{4\epsilon^2(1-\delta)}\)

结论2:估计值 \(M_n\) 与真值 p 相差不小于 \(\epsilon\) 的概率不大于 \(\delta\) 时,n 的一个下界是 \(\frac1{4\epsilon^2\delta}\)

注:这些结论仍然很保守,即给出的 n 的下界与 n 的最小值的偏离程度较大

注2:\(\epsilon\) 称为精度\(\delta\) 称为置信水平

3. 依概率收敛

弱大数定律可以表述为“\(M_n\) 收敛于 \(\mu\)”(“\(M_n\) 收敛于 \(E[X_i]\)”)

随机变量序列 \(M_1,M_2,\dots\) 不是数列,所以这里的“收敛”的含义不同于数列的收敛,为了便于比较两种收敛,以下给出了数列的收敛定义:

数列的收敛

\(a_1,a_2,\dots\) 是实数数列,a 为实数,如果对所有 \(\epsilon>0\),都存在 \(n_0\) 使得对所有 \(n\ge n_0\) 都有 \(|a_n-a|\le\epsilon\)

则称数列 \(a_n\) 收敛于 a,记为 \(\lim\limits_{n\to∞}a_n=a\)

注:如果 \(\lim\limits_{n\to∞}a_n=a\),则对任意 \(\epsilon>0\),当 n 充分大时,\(a_n\) 必须在 a 的 \(\epsilon\) 邻域内

依概率收敛

\(Y_1,Y_2,\dots\) 是随机变量序列,a 为实数,如果对所有 \(\epsilon>0\) 都有 \(\lim\limits_{n\to∞}P(|Y_n-a|\ge\epsilon)=0\)

则称 \(Y_n\) 依概率收敛与 a

注:弱大数定律可以描述为:\(M_n\) 依概率收敛于 \(\mu=E[X_i]\)

例子

  1. \(X_1,X_2,\dots\) 独立同分布,服从 \([0,1]\) 上的均匀分布,\(Y_n=\min\{X_1,\dots,X_n\}\),验证 \(Y_n\) 收敛于 0:
    1. 对于所有 \(\epsilon>0\)\(P(|Y_n-0|\ge\epsilon)=P(Y_1\ge\epsilon,\dots,Y_n\ge\epsilon)=\prod\limits_{i=1}^nP(Y_i\ge\epsilon)=(1-\epsilon)^n\)(最后一个等式需要 \(\epsilon\le1\) 才能成立吧?)
    2. 于是 \(\lim\limits_{n\to∞}P(|Y_n-0|\ge\epsilon)=\lim\limits_{n\to∞}(1-\epsilon)^n=0\)\(Y_n\) 依概率收敛于 0
  2. 设 Y 服从 \(\lambda=1\) 的指数分布;对任意正数 n,定义 \(Y_n=Y/n\),验证 \(Y_n\) 依概率收敛于 0
    1. 对于所有 \(\epsilon>0\)\(P(|Y_n-0|\ge\epsilon)=P(Y_n\ge\epsilon)=P(Y\ge n\epsilon)=e^{-n\epsilon}\)
    2. 于是 \(\lim\limits_{n\to∞}P(|Y_n-0|\ge\epsilon)=\lim\limits_{n\to∞}e^{-n\epsilon}=0\)
  3. 离散随机变量序列 \(Y_n\) 的分布列为 \(P(Y_n=y)=\begin{cases}1-\frac1n&y=0\\\frac1n&y=n^2\\0&其他\end{cases}\)
    1. 对任意 \(\epsilon>0\)\(\lim\limits_{n\to∞}P(|Y_n-0|\ge\epsilon)=\lim\limits_{n\to∞}\frac1n=0\)
    2. 另一方面,\(n\to∞\) 时,\(E[Y_n]=n^2\frac1n=n\to∞\)

4. 中心极限定理

中心极限定理

\(X_1,X_2,\dots\) 是独立同分布的随机变量序列,均值和方差分别为 \(\mu,\sigma^2\)

定义 \(z_n=\frac{S_n-E[S_n]}{\sqrt{\text{var}(S_n)}}=\frac{S_n-n\mu}{\sqrt n\sigma}\)\(S_n=\sum\limits_{i=1}^nX_i\)

(其中 \(E[Z_n]=0,\text{var}(z_n)=1\)

\(Z_n\) 的分布函数的极限分布为标准正态分布函数:\(\Phi(x)=\frac1{\sqrt{2\pi}}\int_{-∞}^xe^{-z^2/2}~d_z\)

也就是说 对于所有 x,\(\lim\limits_{n\to∞}P(Z_n\le x)=\Phi(x)\)

注:该定理的条件是 序列独立同分布,各项的均值和方差有限

基于中心极限定理的近似

\(X_1,X_2,\dots\) 是独立同分布的随机变量序列,均值和方差分别为 \(\mu,\sigma^2\)

\(S_n=\sum\limits_{i=1}^nX_i\);n 充分大时,概率 \(P(S_n\le c)\) 通过将 \(S_n\) 视为正态随机变量来近似计算:

  1. 计算 \(E[S_n]=n\mu,\text{var}(S_n)=n\sigma^2\)
  2. 计算 c 归一化后的值:\(z=\frac{c-E[S_n]}{\sqrt{\text{var}(S_n)}}=\frac{c-n\mu}{\sqrt n\sigma}\)
  3. 计算近似值:\(P(S_n\le c)\approx\Phi(z)\)\(P(S_n>c)\approx1-\Phi(z)\)

例子

  1. 飞机上运载 100 件包裹,每件包裹的重量是独立的随机变量,并且在 5 磅到 50 磅之间均匀分布,计算这 100 件包裹的总重量超过 3000 磅的概率:
    1. 方法1:计算 \(Y=\sum\limits_{i=1}^{100}X_i\) CDF,然后计算概率(如:计算出矩母函数 \(M_Y(s)=[\frac{e^{sb}-e^{sa}}{s(b-a)}]^{n}\),然后求得分布列...)
    2. 方法2:中心极限定理计算近似值:\(P(S_{100}>3000)\approx1-\Phi\left(\frac{3000-100\cdot\frac{5+50}2}{\sqrt{100\cdot\frac{(50-5)^2}{12}}}\right)\)
  2. 一台机器对零件加工,每次加工一个零件,每个零件加工时间的加工时间独立同分布,满足 \([1,5]\) 上的均匀分布;设 \(N_s\) 是 s 个单位时间内的加工零件总数,计算 \(P(N_{320}\ge100)\)
    1. \(N_{320}\) 不能表示为独立随机变量之和,我们转换成另一种观点:
    2. \(X_i\) 是第 i 件零件的加工时间,\(S_n=\sum\limits_{i=1}^{100}\) 是前 n 件的加工总时间
    3. 于是事件 \(\{N_{320}\ge100\}\) 与事件 \(\{S_{100}\le3230\}\) 等价,于是 \(P(S_{100}\le320)\approx\Phi\left(\frac{320-100\cdot\frac{1+5}2}{\sqrt{100\cdot\frac{(5-1)^2}{12}}}\right)\)
  3. 选举问题:设 p 为选民支持某候选人的比例,现在“随机”(选民之间独立同分布)地对 n 个选民进行调查,计算这 n 个选民对候选人的支持率 \(M_n\),我们将 \(M_n\) 视为 p 的估计;假设我们希望估计量 \(M_n\) 与 真值 p 相差不到 0.01 的概率至少超过 \(95\%\),则至少需要调查多少人?
    1. \(n\ge\left[\frac{\Phi^{-1}(\frac{1+\delta}2)}{2\epsilon}\right]^2\)

中心极限定理的应用

独立重复的伯努利试验中,

假设估计值 \(M_n=\frac{\sum\limits_{i=1}^n}n\) 与真值 p 相差严格小于 \(\epsilon\) 的概率不小于 \(\delta\),计算样本容量 n 的一个下界(\(0\le\epsilon,\delta\le 1\)

问题等价于 \(P(|M_n-p|\le\epsilon))\ge \delta\) 求解 n 的下界,

上式也等价于 \(P(|M_n-p|\ge\epsilon))\le 1-\delta\)

其中 \(E[M_n]=p,\text{var}(M_n)=\frac{p(1-p)}n\)

易知 \(P(|M_n-p|\ge\epsilon)\approx2P(M_n-p\ge\epsilon)\)

\(z=\frac{\epsilon-E[M_n-p]}{\sqrt{\text{var}(M_n-p)}}=\frac{\epsilon-0}{\sqrt{p(1-p)/n}}=\frac{\sqrt n\epsilon}{\sqrt{p(1-p)}}\ge 2\sqrt n\epsilon\),于是 \(\Phi(z)\ge\Phi(2\sqrt n\epsilon)\)

(其中 \(E[M_n-p]=0,\text{var}(M_n-p)=\frac{p(1-p)}n\))

应用中心极限定理 \(P(|M_n-p|\ge\epsilon)\approx 2P(M_n-p\ge\epsilon)\approx 2[1-\Phi(z)]\le2[1-\Phi(2\sqrt n\epsilon)]\le1-\delta\)

原不等式成立的充分条件之一是 \(2[1-\Phi(2\sqrt n\epsilon)]\le1-\delta\)

于是 \(n\ge\left[\frac{\Phi^{-1}(\frac{\delta+1}2)}{2\epsilon}\right]^2\)

结论:

  1. 估计值 \(M_n\) 与真值 p 相差严格小于 \(\epsilon\) 的概率不小于 \(\delta\) 时,n 的一个下界是 \(n\ge\left[\frac{\Phi^{-1}(\frac{1+\delta}2)}{2\epsilon}\right]^2\)
  2. 估计值 \(M_n\) 与真值 p 相差不小于 \(\epsilon\) 的概率不大于 \(\delta\) 时,n 的一个下界是 \(n\ge\left[\frac{\Phi^{-1}(\frac{2-\delta}2)}{2\epsilon}\right]^2\)

注:注意该方法与 弱大数定律 的解法的比较

服从参数为 n 和 p 的二项分布的随机变量 \(S_n\) 可以看成 n 个服从参数为 p 的伯努利分布的独立随机变量 \(X_1,\dots,X_n\) 的和:\(S_n=\sum\limits_{i=1}^nX_i\)

使用中心极限定理近似事件 \(\{l\le S_n\le r\}\)

\(l\le S_n\le r\iff \frac{l-E[S_n]}{\sqrt{\text{var}(S_n)}}\le\frac{S_n-E[S_n]}{\sqrt{\text{var}(S_n)}}\le\frac{r-E[S_n]}{\sqrt{\text{var}(S_n)}}\)

\(E[S_n]=np,\text{var}(S_n)=np(1-p)\)

所以 \(P(l\le S_n\le r)=P\left(\frac{l-np}{\sqrt{np(1-p)}}\le\frac{S_n-np}{\sqrt{np(1-p)}}\le\frac{r-np}{\sqrt{np(1-p)}}\right)\approx\Phi(\frac{r-np}{\sqrt{np(1-p)}})-\Phi(\frac{l-np}{\sqrt{np(1-p)}})\)

然而下述法则指出 \(l,r\) 分别替换为 \(l-\frac12,r+\frac12\) 近似结果更加准确

二项分布的棣莫弗-拉普拉斯近似

\(S_n\) 是服从参数为 n 和 p 的二项分布,n 充分大,l 和 r 是非负整数,则:

\(P(l\le S_n\le r)\approx\Phi(\frac{r+\frac12-np}{\sqrt{np(1-p)}})-\Phi(\frac{l-\frac12-np}{\sqrt{np(1-p)}})\)

注:正态近似将二项分布随机变量 \(S_n\) 看成均值为 \(np\) 方差为 \(np(1-p)\) 的正态分布

注2:当 p 靠近 \(1/2\) 时,的分布列是对称的,当 n 接近40或50时,使用上述近似方法就能得到很好的结果;当 p 靠近 1 或 0 时,这个近似结果就不好,这时需要更大的 n 才能得到相同的精度

注3:该近似方法同样也适用于 单侧区间单个点 的近似(该近似方法的特点是一定会扩大计算区间)

中心极限定理的应用总结

  1. 近似样本部分和 \(S_n\) 的分布
  2. 分析样本平均值 \(M_n\) 的“置信度?”

5. 强大数定律

强大数定律与弱大数定律一样,都是指样本均值收敛于真值;但是,它们强调的是不同的收敛类别

强大数定律

\(X_1,X_2,\dots\) 是均值为 \(\mu\) 的独立同分布随机变量序列,则样本均值 \(M_n=\frac{\sum\limits_{i=1}^nX_i}n\)概率 1 收敛于 \(\mu\)

也就是说,\(P(\lim\limits_{n\to∞}\frac{\sum\limits_{i=1}^nX_i}n=\mu)=1\)

注:对强大数定律的解释详见 p306

以概率 1 收敛

\(Y_1,Y_2,\dots\) 是某种概率模型下的随机变量序列(不必独立),c 是某个实数

\(P(\lim\limits_{n\to∞}Y_n=c)=1\)

则称 \(Y_n\)概率 1(或几乎处处)收敛于 c

例子

  1. 详见 p307