5.极限定理
在本章里,我们讨论随机变量序列的渐进性质
设 \(X_1,X_2,\dots\) 为独立同分布的随机变量序列,公共分布 的均值为 \(\mu\),方差为 \(\sigma^2\)
定义该随机变量序列的部分和为 \(S_n=\sum\limits_{i=1}^nX_i\)
本章的极限理论研究 \(S_n\) 以及与 \(S_n\) 相关的变量在 \(n\to∞\) 时的极限性质
显然 \(E[S_n]=n\mu\)
由于随机变量序列各项之间的独立性有 \(\text{var}(S_n)=\sum\limits_{i=1}^n\text{var}(X_i)=n\sigma^2\)
定义样本均值为 \(M_n=\frac{\sum\limits_{i=1}^nX_i}n=\frac{S_n}n\)
于是 \(E[M_n]=E[\frac{S_n}n]=\frac1nE[S_n]=\mu\),\(\text{var}(M_n)=\text{var}(\frac{S_n}n)=\frac1{n^2}\text{var}(S_n)=\frac{\sigma^2}n\)
其中 \(\lim\limits_{n\to∞}\text{var}(M_n)=0\),这意味着 \(M_n\) 的分布大部分就必然与均值 \(\mu\) 特别接近
这种现象就是大数定律的内容,即随机变量序列 \(M_n\),从大样本意义上看,收敛于 \(X_i\) 的均值 \(\mu\)
按通常的解释,当样本量很大的时候,从 X 抽取的样本平均值就是 \(E[X]\),大数定律就为此提供了一个数学理论基础
考虑另一个随机变量序列:\(S_n\) 减去 \(n\mu\)(\(E[S_n]\))得到零均值随机变量序列 \(S_n-n\mu\),然后除以 \(\sigma\sqrt{n}\)(\(\sqrt{\text{var}(S_n)}\)),得到随机变量序列:
\(Z_n=\frac{S_n-E[S_n]}{\sqrt{\text{var}(S_n)}}=\frac{S_n-n\mu}{\sqrt n\sigma}\)
易证 \(E[Z_n]=0\),\(\text{var}(Z_n)=1\)(\(Z_n\) 的均值与方差都不依赖于样本容量 n,因此它既不发散,也不收敛于一点)
中心极限定理就研究研究 \(Z_n\) 的分布的渐进性质,并且得出结论:当 n 充分大的时候,\(Z_n\) 的分布就接近于标准正态分布
随机变量\参数 | 记号 | 均值 | 方差 |
---|---|---|---|
随机变量(独立同分布) | \(X_i\) | \(\mu\) | \(\sigma^2\) |
部分和序列 | \(S_n=\sum\limits_{i=1}^nX_i\) | \(n\mu\) | \(n\sigma^2\) |
样本均值序列 | \(M_n=\frac{S_n}n\) | \(\mu\) | \(\frac{\sigma^2}n\) |
零均值随机变量序列 | \(S_n-n\mu\) | \(0\) | \(n\sigma^2\) |
\(Z_n=\frac{S_n-E[S_n]}{\sqrt{\text{var}(S_n)}}=\frac{S_n-n\mu}{\sqrt n\sigma}\) | \(0\) | \(1\) |
极限理论的用处
- 从理论上看,极限理论为期望(或概率)和独立同分布试验序列之间的联系提供了合理的解释
- 极限理论提供了 \(Z_n\) 等随机变量序列当样本量 n 充分大时的渐近性质;与精确方法比较,为了了解 \(Z_n\) 的性质,精确方法需要计算 \(Z_n\) 的分布列或概率密度函数,但是在 n 充分大的时候,这些计算是非常复杂而且不得要领
- 在使用大量观测数据集时,极限理论在统计推断中发挥主要的作用
1. 马尔科夫和切比雪夫不等式
本节介绍一些重要的不等式.这些不等式使用随机变量的均值和方差去分析事件的概率
在随机变量 X 的均值和方差易于计算,但分布不知道或不易计算时,这些不等式就非常有用
马尔可夫不等式
假设随机变量 X 只取非负值,则对于所有 \(a>0\),都有 \(P(X\ge a)\le\frac{E[X]}a\)
注:马尔可夫不等式给出了 X 不小于某个正数的概率的上界
证明:假设随机变量 \(X\ge0\),并且 \(a>0\)
构造 X 的一个函数:\(Y_a=\begin{cases}0&X<a\\a&X\ge a\end{cases}\)
其中 \(Y_a\le X\)
于是 \(E[Y_a]=\int_a^{+∞}af_X(x)~d_x\le\int_0^{+∞}xf_X(x)~d_x=E[X]\)
又因为 \(E[Y_a]=a\int_a^{+∞}f_X(x)~d_x=aP(X\ge a)\),所以有 \(P(X\ge a)\le\frac{E[X]}a\)
注:若 \(a<0\),那么 \(E[Y_a]=aP(X\ge a)=a\le E[X]\) 或 \(P(X\le a)\ge\frac{E[X]}a\)(不等式左侧等于 1)
\(\blacksquare\)
Tip
- 若 \(g(X)\ge h(X)\),则 \(E[g(X)]\ge E[h(x)]\)?
例子
- X 服从 \([0,4]\) 上的均匀分布,且 \(E[X]=2\):
- 由马尔可夫不等式有:\(P(X\ge 2)\le 1,P(X\ge 3)\le\frac23=0.67,P(X\ge5)\le0.5\)
- 而精确值:\(P(X\ge2)=0.5,P(X\ge 3)=0.25,P(X\ge4)=0\)
- 可以看出由马尔可夫不等式给出的上界与真实概率相差非常远
- 注:注意马尔可夫不等式的条件(\(X\ge0,a>0\)),如:\([-1,4]\) 上的均匀分布是不满足的
下面介绍切比雪夫不等式
粗略地讲,切比雪夫不等式是指如果一个随机变量的方差非常小的话,那么该随机变量取远离均值 \(\mu\) 的概率也非常小
切比雪夫不等式
若随机变量 X 的均值为 \(\mu\),方差为 \(\sigma^2\),
则对于所有 \(c>0\),都有 \(P(|X-\mu|\ge c)\le\frac{\sigma^2}{c^2}\)
严格形式:\(P(|X-E[X]|\ge c)\le\frac{\text{var}(X)}{c^2}\)
注:切比雪夫不等式指出 X 在邻域 \(U(\mu,c)=\{x~|~|x-\mu|<c\}\) 之外的上界
等价式:\(P(X\notin U(\mu,c))\le\frac{\sigma^2}{c^2}=\frac{\text{var}(X)}{c^2}\),\(P(|X-\mu|\ge \sqrt a)\le\frac{\sigma^2}a=\frac{\text{var}(X)}a\)
若 \(c=k\sigma\)(\(k>0\)),那么有 \(P(|X-\mu|\ge k\sigma)\le\frac{\sigma^2}{(k\sigma)^2}=\frac1{k^2}\)
证明:
假设随机变量 X 的均值和期望分别为 \(\mu,\sigma^2\)
将非负随机变量 \((X-\mu)^2\) 代入马尔可夫不等式有:\(P((X-\mu)^2\ge a)\le \frac{E[(X-\mu)^2]}a=\frac{\text{var}(X)}a=\frac{\sigma^2}a\)(对于所有 \(a>0\))
由于 \((X-\mu)^2\ge a\) 等价于 \(|X-\mu|\ge \sqrt a\),于是 \(P(|X-\mu|\ge \sqrt a)\le\frac{\sigma^2}a\)
记 \(c=\sqrt a>0\),则有 \(P(|X-\mu|\ge c)\le\frac{\sigma^2}{c^2}\)
\(\blacksquare\)
例子
- X 服从 \([0,4]\) 上的均匀分布,\(\mu=\frac14,\sigma^2=\frac{4^2}12=\frac43\);\(P(|X-2|\ge1)\le\frac43\)(而概率永远不会超过 1,所以这个不等式不提供任何信息)
- X 服从 \(\lambda=1\) 的指数分布,\(E[X]=\text(var)(X)=1\);\(P(X\ge c)=P(X-1\ge c-1)\le P(|X-1|\ge c-1)\le\frac1{(c-1)^2}\),而 \(P(X\ge c)=e^{-c}\)(可以看出由切比雪夫不等式给出的上界比较保守)
切比雪夫不等式的上界
若 X 的取值空间是 \([a,b]\),可以证明 \(\sigma^2\le\frac{(b-a)^2}4\)
证明详见 p 294
2. 弱大数定律
弱大数定律是指独立同分布的随机变量序列的样本均值,在大样本的情况下,以很大的概率与随机变量的均值非常接近
独立同分布随机变量序列 \(X_1,X_2,\dots\) 的公共分布均值为 \(\mu\),方差为 \(\sigma^2\)
样本均值为 \(M_n=\frac1n\sum\limits_{i=1}^nX_i\),
根据前文有 \(M_n\) 的均值和方差:\(E[M_n]=\mu\),\(\text{var}(M_n)=\frac{\sigma^2}n\)
利用切比雪夫不等式,对于所有 \(\epsilon>0\) \(P(|M_n-E[M_n]|\ge\epsilon)\le\frac{\text{var}(M_n)}{\epsilon^2}\)
于是 \(P(|M_n-\mu|\ge\epsilon)\le\frac{\sigma^2}{n\epsilon^2}\)
弱大数定律
设 \(X_1,X_2,\dots\) 独立同分布,其公共分布均值为 \(\mu\)
对于所有 \(\epsilon>0\),当 \(n\to∞\),\(P(|M_n-\mu|\ge\epsilon)=P(|\frac1n\sum\limits_{i=1}^nX_i-\mu|\ge\epsilon)\to0\)
注:弱大数定律指出对于充分大的 n,\(M_n\) 的分布的大部分都集中在 \(\mu\) 附近,\(M_n\) 位于 \([\mu-\epsilon,\mu+\epsilon]\) 的概率非常大(\(n\to∞\) 时,该概率趋近于 1);当然当 \(\epsilon\) 非常小时,则需要更大的 n,使得 \(M_n\) 以很大的概率落在该区间内
注2:\(\text{var}(X_i)\) 无界时,弱大数定律仍然成立;上述弱大数定律需要假设 \(E[X_i]\) 是有限的
我的理解:n 充分大时,样本均值 \(M_n\) 任意地接近 \(X_i\) 的均值 \(E[X_i]\)
如:\(X_i\) 是伯努利试验时,\(M_n\) 有特殊的含义——频率,而 \(E[X_i]=p\) 也就是事件 A 的概率;也就是说,n 充分大时,事件 A 发生的频率任意地接近事件 A 的概率 p
例子
- 概率与频率:n 次独立重复的伯努利试验中,记 \(M_n\) 为事件 A 发生的次数占总试验次数 n 的比例,\(M_n\) 通常称为事件 A 的频率,而 \(E[X_i]=p\);n 充分大时,事件 A 发生的频率任意地接近事件 A 的概率 p
- 选举问题:设 p 为选民支持某候选人的比例,现在“随机”(选民之间独立同分布)地对 n 个选民进行调查,计算这 n 个选民对候选人的支持率 \(M_n\),我们将 \(M_n\) 视为 p 的估计;假设我们希望估计量 \(M_n\) 与 真值 p 相差不到 0.01 的概率至少超过 \(95\%\),则至少需要调查多少人?
- 上述试验仍然是 独立重复的伯努利试验;上述问题意味着 \(P(M_n\in U(p,0.01))\ge 0.95\),也即 \(P(M_n\notin U(p,0.01))\le 1-0.95=0.05\) (1)
- 由弱大数定律(或切比雪夫不等式)有 \(P(M_n\notin U(p,0.01))\le \frac{\text{var}(M_n)}{0.01^2}=\frac{\sigma^2/n}{0.01^2}=\frac{p(1-p)}{0.01^2n}\) (2)
- 要使不等式 (1) 恒成立,一个充分条件是 \(\max\{\frac{p(1-p)}{0.01n}\}\le 0.05\)
- 又因为 \(\max\{\frac{p(1-p)}{0.01^2n}\}=\frac{1/4}{0.01^2n}=\frac1{4\cdot0.01^2n}\),于是 \(\frac1{4\cdot0.01^2n}\le0.05\),\(n\le 5\cdot10^4\)
弱大数定律应用
独立重复的伯努利试验中,
假设估计值 \(M_n=\frac{\sum\limits_{i=1}^n}n\) 与真值 p 相差严格小于 \(\epsilon\) 的概率不小于 \(\delta\),计算样本容量 n 的一个下界(\(0\le\epsilon,\delta\le 1\))
问题等价于 \(P(M_n\in U(p,\epsilon))\ge \delta\),等价于 \(P(M_n\notin U(p,\epsilon))\le 1-\delta\) (1)
在该试验中 \(E[M_n]=E[X_i]=p,\text{var}(M_n)=\frac{\text{var}(X_i)}n=\frac{p(1-p)}n\)
根据切比雪夫不等式 \(P(M_n\notin U(E[M_n],\epsilon))\le\frac{\text{var}(M_n)}{\epsilon^2}\),等价于 \(P(M_n\notin U(p,\epsilon))\le\frac{p(1-p)}{n\epsilon^2}\)
不等式 (1) 恒成立的一个充分条件是 \(\max\{\frac{p(1-p)}{n\epsilon^2}\}\le 1-\delta\)
而 \(\max\{\frac{p(1-p)}{n\epsilon^2}\}\le \frac1{4n\epsilon^2}\),于是 \(\frac1{4n\epsilon^2}\le 1-\delta\),即 \(n\ge\frac1{4\epsilon^2(1-\delta)}\)
结论1:估计值 \(M_n\) 与真值 p 相差严格小于 \(\epsilon\) 的概率不小于 \(\delta\) 时,n 的一个下界是 \(\frac1{4\epsilon^2(1-\delta)}\)
结论2:估计值 \(M_n\) 与真值 p 相差不小于 \(\epsilon\) 的概率不大于 \(\delta\) 时,n 的一个下界是 \(\frac1{4\epsilon^2\delta}\)
注:这些结论仍然很保守,即给出的 n 的下界与 n 的最小值的偏离程度较大
注2:\(\epsilon\) 称为精度,\(\delta\) 称为置信水平
3. 依概率收敛
弱大数定律可以表述为“\(M_n\) 收敛于 \(\mu\)”(“\(M_n\) 收敛于 \(E[X_i]\)”)
随机变量序列 \(M_1,M_2,\dots\) 不是数列,所以这里的“收敛”的含义不同于数列的收敛,为了便于比较两种收敛,以下给出了数列的收敛定义:
数列的收敛
设 \(a_1,a_2,\dots\) 是实数数列,a 为实数,如果对所有 \(\epsilon>0\),都存在 \(n_0\) 使得对所有 \(n\ge n_0\) 都有 \(|a_n-a|\le\epsilon\),
则称数列 \(a_n\) 收敛于 a,记为 \(\lim\limits_{n\to∞}a_n=a\)
注:如果 \(\lim\limits_{n\to∞}a_n=a\),则对任意 \(\epsilon>0\),当 n 充分大时,\(a_n\) 必须在 a 的 \(\epsilon\) 邻域内
依概率收敛
设 \(Y_1,Y_2,\dots\) 是随机变量序列,a 为实数,如果对所有 \(\epsilon>0\) 都有 \(\lim\limits_{n\to∞}P(|Y_n-a|\ge\epsilon)=0\)
则称 \(Y_n\) 依概率收敛与 a
注:弱大数定律可以描述为:\(M_n\) 依概率收敛于 \(\mu=E[X_i]\)
例子
- \(X_1,X_2,\dots\) 独立同分布,服从 \([0,1]\) 上的均匀分布,\(Y_n=\min\{X_1,\dots,X_n\}\),验证 \(Y_n\) 收敛于 0:
- 对于所有 \(\epsilon>0\),\(P(|Y_n-0|\ge\epsilon)=P(Y_1\ge\epsilon,\dots,Y_n\ge\epsilon)=\prod\limits_{i=1}^nP(Y_i\ge\epsilon)=(1-\epsilon)^n\)(最后一个等式需要 \(\epsilon\le1\) 才能成立吧?)
- 于是 \(\lim\limits_{n\to∞}P(|Y_n-0|\ge\epsilon)=\lim\limits_{n\to∞}(1-\epsilon)^n=0\),\(Y_n\) 依概率收敛于 0
- 设 Y 服从 \(\lambda=1\) 的指数分布;对任意正数 n,定义 \(Y_n=Y/n\),验证 \(Y_n\) 依概率收敛于 0
- 对于所有 \(\epsilon>0\),\(P(|Y_n-0|\ge\epsilon)=P(Y_n\ge\epsilon)=P(Y\ge n\epsilon)=e^{-n\epsilon}\)
- 于是 \(\lim\limits_{n\to∞}P(|Y_n-0|\ge\epsilon)=\lim\limits_{n\to∞}e^{-n\epsilon}=0\)
- 离散随机变量序列 \(Y_n\) 的分布列为 \(P(Y_n=y)=\begin{cases}1-\frac1n&y=0\\\frac1n&y=n^2\\0&其他\end{cases}\)
- 对任意 \(\epsilon>0\) 有 \(\lim\limits_{n\to∞}P(|Y_n-0|\ge\epsilon)=\lim\limits_{n\to∞}\frac1n=0\)
- 另一方面,\(n\to∞\) 时,\(E[Y_n]=n^2\frac1n=n\to∞\)
4. 中心极限定理
中心极限定理
设 \(X_1,X_2,\dots\) 是独立同分布的随机变量序列,均值和方差分别为 \(\mu,\sigma^2\)
定义 \(z_n=\frac{S_n-E[S_n]}{\sqrt{\text{var}(S_n)}}=\frac{S_n-n\mu}{\sqrt n\sigma}\)(\(S_n=\sum\limits_{i=1}^nX_i\))
(其中 \(E[Z_n]=0,\text{var}(z_n)=1\))
则 \(Z_n\) 的分布函数的极限分布为标准正态分布函数:\(\Phi(x)=\frac1{\sqrt{2\pi}}\int_{-∞}^xe^{-z^2/2}~d_z\)
也就是说 对于所有 x,\(\lim\limits_{n\to∞}P(Z_n\le x)=\Phi(x)\)
注:该定理的条件是 序列独立同分布,各项的均值和方差有限
基于中心极限定理的近似
\(X_1,X_2,\dots\) 是独立同分布的随机变量序列,均值和方差分别为 \(\mu,\sigma^2\)
令 \(S_n=\sum\limits_{i=1}^nX_i\);n 充分大时,概率 \(P(S_n\le c)\) 通过将 \(S_n\) 视为正态随机变量来近似计算:
- 计算 \(E[S_n]=n\mu,\text{var}(S_n)=n\sigma^2\)
- 计算 c 归一化后的值:\(z=\frac{c-E[S_n]}{\sqrt{\text{var}(S_n)}}=\frac{c-n\mu}{\sqrt n\sigma}\)
- 计算近似值:\(P(S_n\le c)\approx\Phi(z)\) 或 \(P(S_n>c)\approx1-\Phi(z)\)
例子
- 飞机上运载 100 件包裹,每件包裹的重量是独立的随机变量,并且在 5 磅到 50 磅之间均匀分布,计算这 100 件包裹的总重量超过 3000 磅的概率:
- 方法1:计算 \(Y=\sum\limits_{i=1}^{100}X_i\) CDF,然后计算概率(如:计算出矩母函数 \(M_Y(s)=[\frac{e^{sb}-e^{sa}}{s(b-a)}]^{n}\),然后求得分布列...)
- 方法2:中心极限定理计算近似值:\(P(S_{100}>3000)\approx1-\Phi\left(\frac{3000-100\cdot\frac{5+50}2}{\sqrt{100\cdot\frac{(50-5)^2}{12}}}\right)\)
- 一台机器对零件加工,每次加工一个零件,每个零件加工时间的加工时间独立同分布,满足 \([1,5]\) 上的均匀分布;设 \(N_s\) 是 s 个单位时间内的加工零件总数,计算 \(P(N_{320}\ge100)\)
- \(N_{320}\) 不能表示为独立随机变量之和,我们转换成另一种观点:
- 记 \(X_i\) 是第 i 件零件的加工时间,\(S_n=\sum\limits_{i=1}^{100}\) 是前 n 件的加工总时间
- 于是事件 \(\{N_{320}\ge100\}\) 与事件 \(\{S_{100}\le3230\}\) 等价,于是 \(P(S_{100}\le320)\approx\Phi\left(\frac{320-100\cdot\frac{1+5}2}{\sqrt{100\cdot\frac{(5-1)^2}{12}}}\right)\)
- 选举问题:设 p 为选民支持某候选人的比例,现在“随机”(选民之间独立同分布)地对 n 个选民进行调查,计算这 n 个选民对候选人的支持率 \(M_n\),我们将 \(M_n\) 视为 p 的估计;假设我们希望估计量 \(M_n\) 与 真值 p 相差不到 0.01 的概率至少超过 \(95\%\),则至少需要调查多少人?
- \(n\ge\left[\frac{\Phi^{-1}(\frac{1+\delta}2)}{2\epsilon}\right]^2\)
中心极限定理的应用
独立重复的伯努利试验中,
假设估计值 \(M_n=\frac{\sum\limits_{i=1}^n}n\) 与真值 p 相差严格小于 \(\epsilon\) 的概率不小于 \(\delta\),计算样本容量 n 的一个下界(\(0\le\epsilon,\delta\le 1\))
问题等价于 \(P(|M_n-p|\le\epsilon))\ge \delta\) 求解 n 的下界,
上式也等价于 \(P(|M_n-p|\ge\epsilon))\le 1-\delta\)
其中 \(E[M_n]=p,\text{var}(M_n)=\frac{p(1-p)}n\)
易知 \(P(|M_n-p|\ge\epsilon)\approx2P(M_n-p\ge\epsilon)\)
设 \(z=\frac{\epsilon-E[M_n-p]}{\sqrt{\text{var}(M_n-p)}}=\frac{\epsilon-0}{\sqrt{p(1-p)/n}}=\frac{\sqrt n\epsilon}{\sqrt{p(1-p)}}\ge 2\sqrt n\epsilon\),于是 \(\Phi(z)\ge\Phi(2\sqrt n\epsilon)\)
(其中 \(E[M_n-p]=0,\text{var}(M_n-p)=\frac{p(1-p)}n\))
应用中心极限定理 \(P(|M_n-p|\ge\epsilon)\approx 2P(M_n-p\ge\epsilon)\approx 2[1-\Phi(z)]\le2[1-\Phi(2\sqrt n\epsilon)]\le1-\delta\)
原不等式成立的充分条件之一是 \(2[1-\Phi(2\sqrt n\epsilon)]\le1-\delta\)
于是 \(n\ge\left[\frac{\Phi^{-1}(\frac{\delta+1}2)}{2\epsilon}\right]^2\)
结论:
- 估计值 \(M_n\) 与真值 p 相差严格小于 \(\epsilon\) 的概率不小于 \(\delta\) 时,n 的一个下界是 \(n\ge\left[\frac{\Phi^{-1}(\frac{1+\delta}2)}{2\epsilon}\right]^2\)
- 估计值 \(M_n\) 与真值 p 相差不小于 \(\epsilon\) 的概率不大于 \(\delta\) 时,n 的一个下界是 \(n\ge\left[\frac{\Phi^{-1}(\frac{2-\delta}2)}{2\epsilon}\right]^2\)
注:注意该方法与 弱大数定律 的解法的比较
服从参数为 n 和 p 的二项分布的随机变量 \(S_n\) 可以看成 n 个服从参数为 p 的伯努利分布的独立随机变量 \(X_1,\dots,X_n\) 的和:\(S_n=\sum\limits_{i=1}^nX_i\)
使用中心极限定理近似事件 \(\{l\le S_n\le r\}\)
而 \(l\le S_n\le r\iff \frac{l-E[S_n]}{\sqrt{\text{var}(S_n)}}\le\frac{S_n-E[S_n]}{\sqrt{\text{var}(S_n)}}\le\frac{r-E[S_n]}{\sqrt{\text{var}(S_n)}}\)
(\(E[S_n]=np,\text{var}(S_n)=np(1-p)\))
所以 \(P(l\le S_n\le r)=P\left(\frac{l-np}{\sqrt{np(1-p)}}\le\frac{S_n-np}{\sqrt{np(1-p)}}\le\frac{r-np}{\sqrt{np(1-p)}}\right)\approx\Phi(\frac{r-np}{\sqrt{np(1-p)}})-\Phi(\frac{l-np}{\sqrt{np(1-p)}})\)
然而下述法则指出 \(l,r\) 分别替换为 \(l-\frac12,r+\frac12\) 近似结果更加准确
二项分布的棣莫弗-拉普拉斯近似
设 \(S_n\) 是服从参数为 n 和 p 的二项分布,n 充分大,l 和 r 是非负整数,则:
\(P(l\le S_n\le r)\approx\Phi(\frac{r+\frac12-np}{\sqrt{np(1-p)}})-\Phi(\frac{l-\frac12-np}{\sqrt{np(1-p)}})\)
注:正态近似将二项分布随机变量 \(S_n\) 看成均值为 \(np\) 方差为 \(np(1-p)\) 的正态分布
注2:当 p 靠近 \(1/2\) 时,的分布列是对称的,当 n 接近40或50时,使用上述近似方法就能得到很好的结果;当 p 靠近 1 或 0 时,这个近似结果就不好,这时需要更大的 n 才能得到相同的精度
注3:该近似方法同样也适用于 单侧区间,单个点 的近似(该近似方法的特点是一定会扩大计算区间)
中心极限定理的应用总结
- 近似样本部分和 \(S_n\) 的分布
- 分析样本平均值 \(M_n\) 的“置信度?”
5. 强大数定律
强大数定律与弱大数定律一样,都是指样本均值收敛于真值;但是,它们强调的是不同的收敛类别
强大数定律
设 \(X_1,X_2,\dots\) 是均值为 \(\mu\) 的独立同分布随机变量序列,则样本均值 \(M_n=\frac{\sum\limits_{i=1}^nX_i}n\) 以概率 1 收敛于 \(\mu\)
也就是说,\(P(\lim\limits_{n\to∞}\frac{\sum\limits_{i=1}^nX_i}n=\mu)=1\)
注:对强大数定律的解释详见 p306
以概率 1 收敛
设 \(Y_1,Y_2,\dots\) 是某种概率模型下的随机变量序列(不必独立),c 是某个实数
若 \(P(\lim\limits_{n\to∞}Y_n=c)=1\)
则称 \(Y_n\) 以概率 1(或几乎处处)收敛于 c
例子
- 详见 p307