跳转至

9.经典统计推断

本章主要术语,问题,方法

  1. 经典统计:将未知参数看作是待确定的常数;对于未知参数的每个可能取值都假设一个单独的概率模型
  2. 参数估计:希望找到在未知参数取任何可能值的情况下都基本正确的估计
  3. 假设检验:未知参数对应于对立假设取有限的 \(m(m\ge2)\) 个值;想要选择一个假设,使得在任何可能的假设下错误的概率最小
  4. 显著性检验:希望接受或者拒绝一个简单的假设,保持错误拒绝的概率适当的小
  5. 本章的经典推断方法:
    1. 最大似然估计:选择参数使得被观测到的数据“最有可能”出现,比如使获得当前数据的概率最大(参见 9.1 节)
    2. 线性回归:在这样的意义下找出一组成对数据之间最合适的线性关系:这种线性关系使得模型与真实数据之间差值的平方和最小(参见 9.2 节)
    3. 似然比校验:给定两个假设,根据它们发生“可能性”的比值选择其一,使得犯错的概率适当小(参见 9.3 节)
    4. 显著性校验:给定一个假设,当且仅当观测数据落在某个拒绝域的时候拒绝该假设;特别设计的拒绝域使得错误拒绝的概率低于某个给定阈值(参见 9.4 节)

1. 经典参数估计

本节利用经典的方法讨论参数估计问题,所谓经典的方法就是将参数 \(\theta\) 看作未知常数,而不是随机变量

本节介绍一些定义,估计量的性质,最大似然估计量(对应贝叶斯 最大后验概率估计量);估计未知的均值,估计未知的方差;建立一个由很大概率包含未知参数的区间(一个“置信区间”;前置知识:第 5 章的大数定律,中心极限定理)

估计量

给定观测 \(X=(X_1,\dots,X_n)\)估计量是指形式为 \(\hat\Theta=g(X)\) 的随机变量

(注:由于 X 的分布依赖于 \(\theta\),因而 \(\hat\Theta\) 的分布也一样?)

有时候,尤其是我们对观测数目 n 起的作用感兴趣时,用 \(\hat\Theta_n\) 表示一个估计量

而且将 \(\hat\Theta\) 看作一系列估计量也是合适的(分别对应 n 的不同取值)

\(\hat\Theta_n\) 的均值和方差分别记为 \(E_\theta[\hat\Theta_n]\)\(\text{var}_\theta(\hat\Theta_n)\)

估计量相关术语

假设 \(\hat\Theta_n\) 是未知参数 \(\theta\) 的一个估计量,也即关于 n 个观测 \(X_1,\dots,X_n\)(服从参数为 \(\theta\) 的分布)的一个函数

  1. 估计误差:记为 \(\tilde\Theta_n\),定义为 \(\tilde\Theta_n=\hat\Theta_n-\theta\)
  2. 估计量的偏差:记为 \(b_\theta(\hat\Theta_n)\),是估计误差的期望值(\(b_\theta(\hat\Theta_n)=E_\theta(\tilde\Theta_n)\)):\(b_\theta(\hat\Theta_n)=E_\theta[\hat\Theta_n]-\theta\)
  3. 均方误差:记为 \(E_\theta(\tilde\Theta_n^2)\),有 \(E_\theta(\tilde\Theta_n^2)=b_\theta^2(\hat\Theta_n)+\text{var}_\theta(\hat\Theta_n)\)(由于 \(E[X^2]=E[X]^2+\text{var}(X)\)\(b_\theta(\hat\Theta_n)=E_\theta(\tilde\Theta_n)\)\(\text{var}_\theta(\tilde\Theta_n)=\text{var}_\theta(\hat\Theta_n-\theta)=\text{var}_\theta(\hat\Theta_n)\));均方误差与估计误差的大小相关
  4. \(\hat\Theta_n\) 的期望,方差,偏差都依赖于 \(\theta\),而估计误差同时还依赖于观测 \(X_1,\dots,X_n\)

  5. \(\hat\Theta_n\) 称为无偏,若 \(E_\theta[\hat\Theta_n]=\theta\) 对于 \(\theta\) 所有可能的取值都成立(等价于 \(E_\theta[\tilde\Theta_n]=0\);于是 \(E_\theta[\tilde\Theta_n^2]=\text{var}(\hat\Theta_n)\)

  6. \(\hat\Theta_n\) 称为渐进无偏,若 \(\lim\limits_{n\to∞}E_\theta[\hat\Theta_n]=\theta\) 对于 \(\theta\) 所有可能的取值都成立
  7. \(\hat\Theta_n\) 称为 \(\theta\)相合估计序列,如果对于 \(\theta\) 所有可能的取值,序列 \(\hat\Theta_n\) 依概率收敛到参数 \(\theta\) 的真值

最大似然估计

设观测向量 \(X=(X_1,\dots,X_n)\)联合分布列\(p_X(x;\theta)=p_X(x_1,\dots,x_n;\theta)\)\(\theta\) 可为向量或数量)

其中 \(X=(X_1,\dots,X_n)\)\(X\) 的观测值(?)

那么,最大似然估计是使(\(\theta\) 的)数值函数 \(p_X(x_1,\dots,x_n;\theta)\) 达到最大的数值:

  • X 为离散随机变量时,\(\hat\theta_n=\arg\max\limits_\theta p_X(x_1,\dots,x_n;\theta)\)
  • X 为连续随机变量时,\(\hat\theta_n=\arg\max\limits_\theta f_X(x_1,\dots,x_n;\theta)\)

(称 \(p_X(x;\theta)\)\(f_X(x;\theta)\)似然函数;X 和 x 都是向量:\(X=(X_1,\dots,X_n),x=(x_1,\dots,x_n)\)

假设观测 \(X_i\) 独立:

  • X 为离散随机变量时,\(p_X(x_1,\dots,x_n;\theta)=\prod\limits_{i=1}^np_{X_i}(x_i,\theta)\)
    • \(\ln p_X(x_1,\dots,x_n;\theta)=\sum\limits_{i=1}^n\ln p_{X_i}(x_i,\theta)\)
  • X 为连续随机变量时,\(f_X(x_1,\dots,x_n;\theta)=\prod\limits_{i=1}^nf_{X_i}(x_i,\theta)\)
    • \(\ln f_X(x_1,\dots,x_n;\theta)=\sum\limits_{i=1}^n\ln f_{X_i}(x_i,\theta)\)

Tip

  • 似然:对于已知 X 的观测值 x,\(p_X(x;\theta)\) 不是未知参数等于 \(\theta\) 的概率;事实上,这是当参数取值为 \(\theta\) 时,观测值 x 可能出现的概率;因此,为去顶 \(\theta\) 的估计值时,我们会问这样的问题:基于已知的观测,\(\theta\) 取什么值可使观测值最可能出现呢?
  • 在贝叶斯最大后验概率估计中(8.2),估计的选择是使表达式 \(p_\Theta(\theta)p_{X|\Theta}(x|\theta)\) 取遍 \(\theta\) 达到最大,其中 \(p_\Theta(\theta)\) 是包含一个位置离散参数 \(\theta\) 的鲜艳分布列;因而若将 \(p_X(x;\theta)\) 看作条件分布列,可将最大似然估计解释为具有均匀先验的最大后验概率估计(均匀先验是指对于所有 \(\theta\) 都具有一样的鲜艳概率,也即没有任何信息的先验分布列);同样地,对于连续的取值有界的 \(\theta\),可将最大似然估计解释为具有均匀先验密度的最大后验概率估计,对所有的 \(\theta\) 其均匀先验密度为 \(f_\Theta(\theta)=c\)

例子

  1. 罗密欧与朱丽叶(无偏;与例 8.2 的比较)
  2. 伯努利随机变量的均值估计(渐进无偏;与例 8.8 的比较)
  3. 估计指数随机变量分布中的参数(相合):考虑顾客到达某服务台的时间问题,设第 i 个顾客到达服务台时刻是 \(Y_i\),第 i 个时间间隔 \(X_i=Y_i-Y_{i-1}\)\(Y_0=0\))服从参数为 \(\theta\) 的指数分布,并且 \(X_1,\dots,X_n\) 相互独立(泊松到达模型);现在用观测 \(X_1,\dots,X_n\) 来估计 \(\theta\) 的值(可解释为到达的速率)
    1. 似然函数为 \(f_X(x;\theta)=\prod\limits_{i=1}^nf_{X_i}(x_i;\theta)=\prod\limits_{i=1}^n\theta e^{-\theta x_i}\)
    2. 两边取对数有 \(\ln f_X(x;\theta)=\sum\limits\limits_{i=1}^n(\ln\theta-\theta x_i)=n\ln\theta-\theta\sum\limits_{i=1}^n x_i=n\ln\theta-\theta y_n\)
    3. 两侧求导 \(\frac d{d_\theta}\ln f_X(x;\theta)=\frac d{d_\theta}[n\ln\theta-\theta y_n]=\frac n\theta-y_n\)
    4. 有最值点 \(\hat\Theta_n=\frac1{Y_n/n}\);(根据弱大数定律)\(n\to∞\) 时,\(Y_n/n\) 依概率收敛到 \(E[X_i]=1/\theta\)(即 \(\hat\Theta_n=\frac1{Y_n/n}\to\frac1{E[X_i]}=\frac1{1/\theta}=\theta\)
    5. 也就是说,估计量是相合的
  4. 正态随机变量均值和方差的估计:通过 n 个观测 \(X_1,\dots,X_n\) 来估计正态分布的均值和方差
    1. 参数向量为 \(\theta=(\mu,\nu)\),相应的似然函数为 \(f_X(x;\mu,\nu)=\prod\limits_{i=1}^nf_{X_i}(x_i;\mu,\nu)=\prod\limits_{i=1}^n\frac1{\sqrt{2\pi}\sqrt\nu}e^{-(x_i-\mu)^2/(2\nu)}\)
    2. 两侧取对数:\(\ln f_X(x;\mu,\nu)=\sum\limits_{i=1}^n\left[\ln(\frac1{\sqrt{2\pi\nu}})-\frac{(x_i-\mu)^2}{2\nu}\right]=-\frac n2\ln 2\pi\nu-\frac1{2\nu}\sum\limits_{i=1}^n(x_i-\mu)^2\)
    3. \(M_n=\frac1n\sum\limits_{i=1}^nX_i\)\(\sum\limits_{i=1}^n(x_i-\mu)^2=\sum\limits_{i=1}^n[(x_i-m_n)+(m_n-\mu)]^2=\sum\limits_{i=1}^n[(x_i-m_n)^2+(m_n-\mu)^2]\);令 \(\bar S_n^2=\frac1n\sum\limits_{i=1}^n(X_i-M_n)^2\)
    4. 于是对数似然函数为 \(\ln f_X(x;\mu,\nu)=-\frac n2\ln 2\pi\nu-\frac1{2\nu}\sum\limits_{i=1}^n[(x_i-m_n)^2+(m_n-\mu)^2]=-\frac n2\ln 2\pi\nu-\frac n{2\nu}s_n^2-\frac n{2\nu}(m_n-\mu)^2\)
    5. 上式分别对 \(\mu\)\(\nu\) 求偏导,令导数为零,得到估计值和估计量:\(\hat\theta_n=(m_n,s_n^2)\)\(\hat\Theta_n=(M_n,\bar S_n^2)\)
    6. 注意到 \(M_n\) 是样本均值,\(\bar S_n^2\) 可以看作“样本方差”
    7. 易证,\(E_\theta[\bar S_n^2]\) 当 n 增大时收敛到 \(\nu\),因而 \(\bar S_n^2\) 是渐进无偏的;运用弱大数定律可知 \(M_n\)\(\bar S_n^2\) 分别是 \(\mu\)\(\nu\) 的相合估计量

最大似然估计的性质

  1. 不变原理:如果 \(\hat\Theta_n\)\(\theta\) 的最大似然估计,那么对于任意关于 \(\theta\) 的一一映射的函数 h,\(\zeta=h(\theta)\) 的最大似然估计是 \(h(\hat\Theta_n)\);对于独立同分布的观测,在一些适合的假设条件下,最大似然估计量是相合的
  2. \(\theta\) 是标量参数时,在某些合适的条件下最大似然估计量具有渐进正态性质;特别地,可以看见 \(\frac{\hat\Theta_n-\theta}{\sigma(\hat\Theta_n)}\) 的分布接近标准正态分布,其中 \(\sigma^2(\hat\Theta_n)\)\(\hat\Theta_n\) 的方差;因此,如果我们还能够估计 \(\sigma(\hat\Theta_n)\),就能进一步得到基于正态近似的误差方差估计;当 \(\theta\) 是向量参数,针对每个分量可以得到类似的结论

最大似然估计

  1. 已知随机变量 \(X=(X_1,\dots,X_n)\) 的观测值为 \(X=(X_1,\dots,X_n)\),其联合分布列为 \(p_X(x;\theta)\)(或 PDF 为 \(f_X(x;\theta)\)
  2. 最大似然函数是使得似然函数 \(p_X(x;\theta)\)(或 \(f_X(x;\theta)\))达到最大值时 \(\theta\) 的取值
  3. 关于 \(\theta\) 一一映射的函数 \(h(\theta)\) 的最大似然估计是 \(h(\hat\theta_n)\),其中 \(\hat\Theta_n\)\(\theta\) 的最大似然估计
  4. 当随机变量 \(X_i\) 是独立同分布时,在某些合适的假定条件下,最大似然估计的每个分量都具有相合性且渐进正态

现在来讨论一个简单而重要的问题:如何估计一个概率分布的均值和方差

假设观测 \(X_1,\dots,X_n\) 是独立同分布的,均值为未知参数 \(\theta\)

\(\theta\) 的最自然估计量是样本均值\(M_n=\frac{\sum\limits_{i=1}^nX_i}n\)(即 \(\hat\Theta_n=M_n\)

由于 \(E_\theta[M_n]=E_\theta[X_i]=\theta\),因而该估计量是无偏的,于是它的 均方误差 与 方差 相等:\(E_\theta[\tilde\Theta_n^2]=\text{var}_\theta(\hat\Theta_n)=\frac{\nu}n\)(设 \(\nu=\text{var}_\theta(X_i)\)

由计算看出,\(M_n\) 的均方误差无依赖于 \(\theta\)

更进一步,由大数定律,估计量依概率收敛到 \(\theta\),因而具有相合性

但是样本均值 \(M_n\) 未必是方差最小的估计量,如:考虑估计量 \(\hat\Theta_n=0\),其方差 \(\text{var}_\theta(\hat\Theta_n)=0\),但偏差 \(b_\theta(\hat\Theta_n)=-\theta\)

特别地,依赖 \(\theta\) 的均方误差为 \(\theta^2\)(?)

例子

  • 假设观测 \(X_1,\dots,X_n\) 是正态独立同分布的,具有共同的未知均值 \(\theta\) 和已知方差 \(\nu\)
    • 假设参数 \(\theta\) 服从正态的先验分布,对于 \(\theta\) 的先验均值是零的情况,根据例 8.3 有估计量 \(\hat\Theta_n=\frac{\sum\limits_{i=1}^nX_i}{n+1}\)
    • 由于 \(E_\theta[\hat\Theta_n]=\frac n{n+1}\theta\),进而 \(b_\theta(\hat\Theta_n)=-\frac\theta{n+1}\)(有偏)
    • \(\lim\limits_{n\to∞}b_\theta(\hat\Theta_n)=0\),所以 \(\hat\Theta_n\) 渐进无偏
    • 方差为 \(\text{var}_\theta(\hat\Theta_n)=\frac{n}{(n+1)^2}\nu\)(比样本均值方差 \(\nu/n\) 略小,并且不依赖于 \(\theta\)
    • \(E_\theta[\tilde\Theta_n^2]=b_\theta^2[\hat\Theta_n]+\text{var}_\theta(\hat\Theta_n)=\frac{\theta^2+n\nu}{(n+1)^2}\)
    • 假设样本均值 \(M_n=\frac{\sum\limits_{i=1}^nX_i}n\) 和“样本方差”\(\bar S_n^2=\frac1n\sum\limits_{i=1}^n(X_i-M_n)^2\)作为 \(\theta\)\(\nu\) 的估计量
    • 根据事实 \(E_{(\theta,\nu)}[M_n]=\theta\)\(E_{\theta,\nu}[X_i^2]=\theta^2+\nu\)\(E_{(\theta,\nu)}[M_n^2]=\theta^2+\frac\nu n\)(???)
    • 得到 \(\begin{aligned}\operatorname{E}_{(\theta,v)}[\bar{S_{n}^{2}}]=& \frac{1}{n}\mathrm{E}_{(\theta,v)}\left[\sum_{i=1}^{n}X_{i}^{2}-2M_{n}\sum_{i=1}^{n}X_{i}+nM_{n}^{2}\right] \\=& \operatorname{E}_{(\theta,v)}\left[{\frac{1}{n}}\sum_{i=1}^{n}X_{i}^{2}-2M_{n}^{2}+M_{n}^{2}\right] \\=&\mathrm{E}_{(\theta,v)}\left[\frac{1}{n}\sum_{i=1}^{n}X_{i}^{2}-M_{n}^{2}\right] \\=&\theta^{2}+v-\left(\theta^{2}+\frac{v}{n}\right) \\=& \frac{n-1}{n}v. \end{aligned}\)
    • \(\bar S_n^2\) 有偏但渐进无偏
    • 通过适当的比例缩放可以得到方差的无偏估计量 \(\hat S_n^2=\frac1{n-1}\sum\limits_{i=1}^n(X_i-M_n)^2=\frac n{n-1}\bar S_n^2\)\(E_{(\theta,\nu)}[\hat S_n^2]=\nu\)

随机变量的均值和方差估计

观测值 \(X_1,\dots,X_n\) 是独立同分布的,均值 \(\theta\) 和方差 \(\nu\) 均未知

  1. 均值:样本均值 \(M_n=\frac{\sum\limits_{i=1}^nX_i}n\) 是均值 \(\theta\) 的一个无偏估计量,它的均方误差是 \(\frac\nu n\)
  2. 方差:方差的估计量有两个,分别为 \(\bar S_n^2=\frac1n\sum\limits_{i=1}^n(X_i-M_n)^2\)\(\hat S_n^2=\frac1{n-1}\sum\limits_{i=1}^n(X_i-M_n)^2\)
  3. \(X_i\) 服从正态分布:估计量 \(\bar S_n^2\) 和最大似然估计量相等,它有偏但渐进无偏;估计量 \(\hat S_n^2\) 是无偏的
  4. n 很大时,方差的两个估计量本质上是一致的

置信区间

考虑位置参数 \(\theta\) 的一个估计量 \(\hat\Theta_n\);除了估计所得的数值,我们还想建立一个所谓的置信区间,使得这个区间以某个很高的概率包含参数 \(\theta\) 的真值(这里的真实参数是一个常数,而置信区间是一个随机项)

我们固定一个希望达到的置信水平 \(1-\alpha\)\(\alpha\) 往往是一个很小的数),然后用一个略小的估计量 \(\hat\Theta_n^-\) 和一个略大的估计量 \(\hat\Theta_n^+\) 代替点估计量 \(\hat\Theta_n\)\(\hat\Theta_n^-\le \hat\Theta_n^+\)),

\(P_\theta(\hat\Theta_n^-\le\theta\le\hat\Theta_n^+)\ge1-\alpha\)(对于所有可能的 \(\theta\)

与一般的估计量类似,\(\hat\Theta_n^-\)\(\hat\Theta_n^+\) 也是观测的函数,因而是其分布依赖 \(\theta\) 的随机变量

\([\hat\Theta_n^-,\hat\Theta_n^+]\)\((1-\alpha)\) 置信区间

例子

  • 假设观测 \(X_i\) 是正态同分布的,均值 \(\theta\) 未知,方差 \(\nu\) 已知
    1. 样本均值估计量 \(\hat\Theta_n=\frac{\sum\limits_{i=1}^n}n\) 服从正态分布(参见第 4 章),均值和方差分别为 \(\theta\)\(\nu/n\)
    2. 假设 z 已知,从正态分布表查表得到 \(\Phi(z)=1-\alpha/2\)(原例是:\(\Phi(1.96)=0.975=1-\alpha/2\)
    3. 于是 \(P_\theta\left(\frac{|\hat\Theta_n-\theta|}{\sqrt{\nu/n}}\le z\right)=1-\alpha=2\Phi(z)-1\)
    4. \(P_\theta\left(\hat\Theta_n-z\sqrt{\nu/n}\le\theta\le \hat\Theta_n+z\sqrt{\nu/n}\right)=2\Phi(z)-1\)
    5. 这说明 \(\left[\hat\Theta_n-z\sqrt{\nu/n},\hat\Theta_n+z\sqrt{\nu/n}\right]\)\(1-\alpha=2\Phi(z)-1\) 的置信区间(\(\hat\Theta_n^-=\hat\Theta_n-z\sqrt{\nu/n}\)\(\hat\Theta_n^+=\hat\Theta_n+z\sqrt{\nu/n}\)

置信区间

  • 对于一维的未知参数 \(\theta\),其置信区间是一个以很高概率包括 \(\theta\) 的区间,端点为 \(\hat\Theta_n^-\)\(\hat\Theta_n^+\)
  • \(\hat\Theta_n^-\)\(\hat\Theta_n^+\) 是依赖于观测 \(X_1,\dots,X_n\) 的随机变量
  • \((1-\alpha)\) 置信区间对于 \(\theta\) 的所有可能取值都满足 \(P_\theta(\hat\Theta_n^-\le\theta\le\hat\Theta_n^+)\ge1-\alpha\)

基于方差近似估计量的置信区间(正态逼近方法)

假设观测 \(X_i\) 是正态独立同分布的,均值 \(\theta\) 和方差 \(\nu\) 均未知

用两个无偏估计量 \(\hat\Theta_n=\frac{\sum\limits_{i=1}^nX_i}n\)\(\hat S_n^2=\frac1{n-1}\sum\limits_{i=1}^n(X_i-\hat\Theta_n)^2\) 来分别估计 \(\theta\)\(\nu\);特别地,用 \(\hat S_n^2/n\) 来估计样本均值的方差 \(\nu/n\)

给定 \(\alpha\),根据中心极限定理构造一个(近似)\(1-\alpha\) 置信区间 \([\hat\Theta_n-z\frac{\hat S_n}{\sqrt n},\hat\Theta_n+z\frac{\hat S_n}{\sqrt n}]\)\(\left|\frac{\hat\Theta_n-\theta}{\sqrt{\hat S_n^2/n}}\right|\le z\)

其中 z 由 \(\Phi(z)=1-\frac\alpha2\)\(z=\Phi^{-1}(1-\frac\alpha2)\) 得到

(注:将 \(\hat\Theta_n\) 看成正态随机变量;用估计 \(\hat S_n^2/n\) 代替真实方差 \(\nu/n\)

而上述过程可以用 \(t-\) 分布来表达:

  • 定义 \(T_n=\frac{\hat\Theta_n-\theta}{\sqrt{\hat S_n^2/n}}=\frac{\sqrt n(\hat\Theta_n-\theta)}{\hat S_n}\),称 \(T_n\) 的分布为自由度为 n-1 的 t- 分布(又称学生分布
  • 定义其概率密度函数为 \(\Psi_{n-1}(z)=f_{T_n}(z)\)
    • 性质1:\(X_i\) 是正态分布时,\(\Psi_{n-1}(z)\) 不依赖于 \(\theta\)\(\nu\)
    • 性质2:\(n\ge50,\Psi_{n-1}(z)\approx\Phi(z)\)\(\lim\limits_{n\to∞}\Psi_{n-1}(z)=\Phi(z)\)
    • \(t-分布表\)的使用方法:最左列代表自由度 \(n-1\),最上行表示 \(\beta\),表中每一个元素代表 \(z=\Psi_{n-1}^{-1}(1-\beta)\)(这意味着 \(\Psi_{n-1}(z)=1-\beta\)
    • 注:用 \(t-分布表\) 近似置信区间时,根据 \(\Psi_{n-1}(z)=1-\frac\alpha2\),直接用 \((n-1,\frac\alpha2)\)\((n-1,\frac{1-\gamma}2)\) 快速定位对应的 z 值(\(\gamma=1-\alpha\) 是“置信度”)

\(X_i\) (近似)正态并且 n 相对较小时,有更加精确的置信区间:\([\hat\Theta_n-z\frac{\hat S_n}{\sqrt n},\hat\Theta_n+z\frac{\hat S_n}{\sqrt n}]\)(不是一样嘛?)

最后,给出普遍适用的近似 \(1-\alpha\) 置信区间:\([\hat\Theta_n-z\sqrt{\hat\nu/n},\hat\Theta_n+z\sqrt{\hat\nu/n}]\)\(\hat\nu\) 是方差的估计)

Tip

  1. 目前为止建立的近似置信区间依赖于未知方差 \(\nu\) 的特殊估计量 $\hat S_n^2
  2. 然而,方差可能有不同的估计量或近似,如:\(X_1,\dots,X_n\) 是独立同分布的伯努利随机变量,具有未知均值 \(\theta\) 和未知方差 \(\nu=\theta(1-\theta)\)
  3. 于是,除了 \(\hat S_n^2\) 之外,\(\hat\Theta_n(1-\hat\Theta_n)\) 也是方差的一个近似,而且后者渐进无偏(\(n\to∞\) 时,\(\hat\Theta_n\) 依概率收敛到 \(\theta\),因而 \(\hat\Theta_n(1-\hat\Theta_n)\) 也依概率收敛到 \(\nu=\theta(1-\theta)\)
  4. 另外,由于 \(\theta(1-\theta)\le\frac14\),因此该上界 \(\frac14\) 也可以作为 \(\nu\) 的保守估计
  5. 总结:正态逼近方法需要对 X 的方差进行估计;对于观测 \(X_1,\dots,X_n\)\(X_i\) 是独立同分布的伯努利随机变量的情况,X 的方差一般有三种估计:\(\hat S_n^2=\frac1{n-1}\sum\limits_{i=1}^n(X_i-\hat\Theta_n)^2\)\(\hat\Theta_n(1-\hat\Theta_n)\)\(\frac14\)

例子

  1. 选举问题:假设观测 \(X_1,\dots,X_n\)\(X_i\) 是独立同分布的伯努利随机变量;假设样本人数为 \(n=1200\) 的选民中有 684 位支持候选人,均值的估计 \(\hat\Theta_n=684/1200=0.57\)
    1. \(\hat\nu=\hat S_n^2=\frac1{n-1}\sum\limits_{i=1}^n(X_i-\hat\Theta_n)^2=\frac1{1199}\left[684(1-\frac{684}{1200})^2+516(0-\frac{684}{1200})^2\right]=\frac{7353}{29975}\approx 245\),那么近似 \(95\%\) 置信区间为 \([0.57-1.96\sqrt{0.245/1200},0.57+1.96\sqrt{0.245/1200}]=[0.542,0.598]\)
    2. \(\hat\nu=\hat\Theta_n(1-\hat\Theta_n)=\frac{684}{1200}(1-\frac{684}{1200})=0.2451\approx0.245\),那么近似 \(95\%\) 置信区间为 \([0.57-1.96\sqrt{0.245/1200},0.57+1.96\sqrt{0.245/1200}]=[0.542,0.598]\)
    3. \(\hat\nu=\frac14\),那么近似 \(95\%\) 置信区间为 \([0.57-1.96\sqrt{0.245/1200},0.57+1.96\sqrt{0.245/1200}]=[0.542,0.599]\)

2. 线性回归

本节利用线性回归的方法对感兴趣的两个或多个变量之间的关系建立模型

这种方法的特征是:它可以由最小二乘法完成操作,而不需要任何概率上的解释;当然,{线性回归}也可以在各种概率框架之下进行解释

考虑两个变量的情况,线性回归解(最小二乘解)

现在对两个变量 x 和 y 的关系建模(如:受教育的年数),为此收集了数据了作为输入 \((x_i,y_i)\)\(i=1..n\)

假设 \(x_i\)\(y_i\) 之间有近似线性的关系,即 \(y\approx\theta_0+\theta_1 x\)\(\theta_0,\theta_1\) 是未知的待估参数

若给定待估参数 \(\theta_0\)\(\theta_1\),模型对 \(x_i\) 相应的 \(y_i\)预测\(\hat y_i=\hat\theta_0+\hat\theta_1 x_i\)

而预测值 \(\hat y_i\) 与真值 \(y_i\) 之间的差值 \(\tilde y_i=y_i-\hat y_i\),称为第 i 个残差

定义残差平方和 \(\sum\limits_{i=1}^n(y_i-\hat y_i)^2=\sum\limits_{i=1}^n(y_i-\hat\theta_0-\hat\theta_1 x_i)^2\)

线性回归在所有的 \(\theta_0\)\(\theta_1\) 中选择出 \((\hat\theta_0,\hat\theta_1)\) 使得残差平方和最小,即 \((\hat\theta_0,\hat\theta_1)=\arg\min\limits_{(\theta_0,\theta_1)}\sum\limits_{i=1}^n(y_i-\theta_0-\theta_1 x_i)^2\)

线性回归指出:给定 n 个数据对 \((x_i,y_i)\),使得残差平方和最小的估计是:

\(\hat\theta_1=\frac{\sum\limits_{i=1}^n(x_i-\bar x)(y_i-\bar y)}{\sum\limits_{i=1}^n(x_i-\bar x)^2},\hat\theta_0=\bar y-\hat\theta_1\bar x\)

其中 \(\bar x=\frac1n\sum\limits_{i=1}^nx_i,\bar y=\frac1n\sum\limits_{i=1}^ny_i\)

(注:上述线性回归解的证明方式是分别对 \(\theta_0\)\(\theta_1\) 求偏导,然后令偏导数取零,解得 \(\theta_0\)\(\theta_1\);由于 \(f(\theta_0,\theta_1)\) 是一个分别关于 \(\theta_0\)\(\theta_1\) 的开口向上的二次函数,因而有最小值,而且在拐点处取最小值)

计算:\((\hat\theta_0,\hat\theta_1)=\arg\min\limits_{(\theta_0,\theta_1)}\sum\limits_{i=1}^n(y_i-\theta_0-\theta_1 x_i)^2\)

\(f(\theta_0,\theta_1)=\sum\limits_{i=1}^n(y_i-\theta_0-\theta_1 x_i)^2\)

\(\frac{\partial f}{\partial_{\theta_0}}=0\)\(\frac{\partial f}{\partial_{\theta_1}}=0\) 得到:

\(\begin{cases}n\theta_0+\sum x_i\theta_1=\sum y_i\\\sum x_i\theta_0+\sum x_i^2\theta_1=\sum x_iy_i\end{cases}\)

观察到上述方程组是关于 \(\theta_0,\theta_1\) 的线性方程组,因而:

\(\begin{bmatrix}n&\sum x_i&\sum y_i\\\sum x_i&\sum x_i^2&\sum x_iy_i\end{bmatrix}=\begin{bmatrix}n&n\bar x&n\bar y\\n\bar x&\sum x_i^2&\sum x_iy_i\end{bmatrix}\sim\begin{bmatrix}1&\bar x&\bar y\\0&\sum (x_i-\bar x)^2&\sum (x_i-\bar x)(y_i-\bar y)\end{bmatrix}\)

\(\sim\begin{bmatrix}1&\bar x&\bar y\\0&1&\frac{\sum (x_i-\bar x)(y_i-\bar y)}{\sum (x_i-\bar x)^2}\end{bmatrix}\sim\begin{bmatrix}1&0&\bar y-\frac{\sum (x_i-\bar x)(y_i-\bar y)}{\sum (x_i-\bar x)^2}\bar x\\0&1&\frac{\sum (x_i-\bar x)(y_i-\bar y)}{\sum (x_i-\bar x)^2}\end{bmatrix}\)

于是:\(\hat\theta_1=\frac{\sum\limits_{i=1}^n(x_i-\bar x)(y_i-\bar y)}{\sum\limits_{i=1}^n(x_i-\bar x)^2},\hat\theta_0=\bar y-\hat\theta_1\bar x\)

\(\blacksquare\)

求和公式性质

  1. \(\bar x=\frac1n\sum\limits_{i=1}^nx_i\),那么 \(\sum\limits_{i=1}^n(x_i-\bar x)=0\);其推论及其推导过程如下:
  2. (1) \(\sum\limits_{i=1}^nx_i^2=\sum\limits_{i=1}^n(x_i-\bar x+\bar x)^2=\sum\limits_{i=1}^n(x_i-\bar x)^2+2\bar x\sum\limits_{i=1}^n(x_i-\bar x)+\bar x^2\sum\limits_{i=1}^n1=\sum\limits_{i=1}^n(x_i-\bar x)^2+n\bar x^2\)
  3. (2) \(\sum\limits_{i=1}^nx_iy_i=\sum\limits_{i=1}^n(x_i-\bar x+\bar x)(y_i-\bar y+\bar y)=\sum\limits_{i=1}^n(x_i-\bar x)(y_i-\bar y)+\bar x\sum\limits_{i=1}^n(y_i-\bar y)+\bar y\sum\limits_{i=1}^n(x_i-\bar x)+\bar x\bar y\sum\limits_{i=1}^n1=\sum\limits_{i=1}^n(x_i-\bar x)(y_i-\bar y)+n\bar x\bar y\)
  4. 推论1:\(\sum\limits_{i=1}^nx_i^2=\sum\limits_{i=1}^n(x_i-\bar x)^2+n\bar x^2\)\(\sum\limits_{i=1}^n(x_i-\bar x)^2=\sum\limits_{i=1}^nx_i^2-n\bar x^2\)
  5. 推论2:\(\sum\limits_{i=1}^nx_iy_i=\sum\limits_{i=1}^n(x_i-\bar x)(y_i-\bar y)+n\bar x\bar y\)\(\sum\limits_{i=1}^n(x_i-\bar x)(y_i-\bar y)=\sum\limits_{i=1}^nx_iy_i-n\bar x\bar y\)
  6. 推论3:\(\sum\limits_{i=1}^nx_i^3=\sum\limits_{i=1}^n(x_i-\bar x)^3+3\bar x\sum\limits_{i=1}^n(x_i-\bar x)^2+n\bar x^3\)
  7. 推论4:\(\sum\limits_{i=1}^nx_i^k=\sum\limits_{i=1}^n\sum\limits_{j=2}^k\binom kj(x_i-\bar x)^j\bar x^{k-j}+n\bar x^k\)
  8. 注:这些性质对线性回归的解的推导有一定帮助

最小二乘公式的合理性(参见 p496)

可从不同角度来说明最小二乘方法的合理性:

  1. 最大似然(线性模型, 正态噪声)
  2. 近似贝叶斯线性最小均方估计(在可能的非线性模型中)
  3. 近似贝叶斯最小均方估计(线性模型)

贝叶斯线性回归(参见 p497)

多元线性回归

上面讨论的线性回归问题只包含一个解释变量 x,即一元回归(建立一个用 \(x_i\) 的值来解释 \(y_i\) 的观测值的模型)

假设数据由 \(m+1\) 元组的形式组成,即 \((x_{i1},\dots,x_{im},y_i)\)

\(x_{i1},\dots,x_{im}\)\(y_i\) 之间有近似线性关系:\(y\approx\theta_0+\sum\limits_{j=1}^m\theta_jx_j\)(连续情况对离散情况的近似)

\(y_i\) 的预测为:\(\hat y_i=\hat\theta_0+\sum\limits_{j=1}^m\hat \theta_jx_{ij}\)

残差平方和:\(\sum\limits_{i=1}^n(y_i-\hat y_i)^2=\sum\limits_{i=1}^n(y_i-\hat\theta_0-\sum\limits_{j=1}^m\hat \theta_jx_{ij})^2\)

分别对 \(\theta_0,\theta_1,\dots,\theta_m\) 求偏导数,然后偏导数取零,适当整理后得到矩阵方程:

\(\sum\limits_{i=1}^n(y_i-\hat y_i)^2=\sum\limits_{i=1}^n(y_i-\hat\theta_0-\sum\limits_{j=1}^m\hat \theta_jx_{ij})^2\\\begin{bmatrix}n&\sum x_{i1}&\dots&\sum x_{im}\\\sum x_{i1}&\sum x_{i1}^2&\dots&\sum x_{i1}x_{im}\\\vdots&\vdots&&\vdots\\\sum x_{im}&\sum x_{im}x_{i1}&\dots&\sum x_{im}x_{im}\end{bmatrix}\begin{bmatrix}\theta_0\\\theta_1\\\vdots\\\theta_m\end{bmatrix}=\begin{bmatrix}\sum y_i\\\sum x_{i1}y_i\\\vdots\\\sum x_{im}y_i\end{bmatrix}\)

对增广矩阵做适当的初等行变换:

\(\begin{bmatrix}n&\sum x_{i1}&\dots&\sum x_{im}&\sum y_i\\\sum x_{i1}&\sum x_{i1}^2&\dots&\sum x_{i1}x_{im}&\sum x_{i1}y_i\\\vdots&\vdots&&\vdots\\\sum x_{im}&\sum x_{im}x_{i1}&\dots&\sum x_{im}x_{im}&\sum x_{im}y_i\end{bmatrix}\sim\begin{bmatrix}n&n\bar x_1&\dots&n\bar x_m&n\bar y\\n\bar x_1&\sum x_{i1}^2&\dots&\sum x_{i1}x_{im}&\sum x_{i1}y_i\\\vdots&\vdots&&\vdots\\n\bar x_m&\sum x_{im}x_{i1}&\dots&\sum x_{im}^2&\sum x_{im}y_i\end{bmatrix}\)

\(\sim\begin{bmatrix}1&\bar x_1&\dots&\bar x_m&\bar y\\0&\sum (x_{i1}-\bar x_1)^2&\dots&\sum (x_{i1}-\bar x_1)(x_{im}-\bar x_m)&\sum (x_{i1}-\bar x_1)(y_i-\bar y)\\\vdots&\vdots&&\vdots&\vdots\\0&\sum (x_{im}-\bar x_m)(x_{i1}-\bar x_1)&\dots&\sum (x_{im}-\bar x_m)^2&\sum (x_{im}-\bar x_m)(y_i-\bar y)\end{bmatrix}\)

(几乎无法计算下去)

特别地,可以构造 m 元回归 \((h_1(x_i),\dots,h_m(x_i),y)\)(也可以用来构造多项式)

注:\(x_{ij}\) 表示第 i 个数据的第 j 维;\(x_j\) 表示任意数据的第 j 维

非线性回归

假设 x 和 y 具有非线性关系:\(y\approx h(x;\theta)\)

给定已知的数据对 \((x_i,y_i)\)\(i=1..n\)),计算残差平方和最小值对应的待估参数 \(\hat\theta=\arg\min\limits_{\theta}\sum\limits_{i=1}^n(y_i-h(x_i;\theta))^2\)

假设 \(W_i\) 是独立同分布的零均值正态随机变量(\(W_i\) 的方差为 \(\sigma^2\)),构造一个模型:\(Y_i=h(x_i;\theta)+W_i\)

于是上述模型的似然函数的形式有:\(f_Y(y;\theta)=\prod\limits_{i=1}^n\frac1{\sqrt{2\pi}\sigma}\exp\left\{-\frac{(y_i-h(x_i;\theta))^2}{2\sigma^2}\right\}\)

似然函数的最大等价于上式中指数部分最大,也就是使得残差平方和最小(也就是说,\(Y_i\) 为正态的情况下,非线性回归模型中参数 \(\theta\) 的最小二乘估计就是 \(\theta\) 的最大似然估计)

实际中的考虑

回归方法的应用领域非常广泛,从工程到社会科学领域,无不涉及,但是应用时需要小心

这里我们讨论一些很重要的需要牢记的问题,忽略了这些事项,将无法通过回归分析得到可靠的结论

  1. 异方差性:在涉及正态误差的线性回归模型中,最小二乘估计要求模型中误差项,也即噪声项 \(W_i(i=1..n)\) 的方差相同;但是,在现实中,不同数据对的 \(W_i\) 的方差可能有很大差别(如:\(W_i\) 的方差可能受到 \(x_i\) 的严重影响;更具体一些,假设 \(x_i\) 是年收入且 \(y_i\) 是年消费,很自然能够预期富人消费的方差远大于穷人消费的方差);在这种情况下,一些方差较大的噪声项将对参数估计造成不恰当的影响,一种合适的补救办法是使用加权最小二乘准则:\(\sum\limits_{i=1}^n\alpha_i(y_i-h(x_i;\theta))^2\)(其中对于 \(W_i\) 的方差较大的 i, 权重 \(\alpha_i\) 就小一些)
  2. 非线性:很多时候,变量 x 的取值可以影响变量 y 的取值,但是这种影响可能是非线性的;之前也讨论过,选择合适的 h,基于数据对 \((h(x_i),y_i)\) 的回归模型可能更合适
  3. 多重共线性:假设现在用两个解释变量 x 和 z 来建模预测另一个变量 y;如果 x 和 z 之间本身就有很强的关系,那么估计的过程可能无法可靠的区分两个解释变量各自对模型的影响;一个极端的例子是,假设 \(y=2x+1\) 是真实的关系, 而 \(z=2x\) 总是成立的;那么模型 \(y=z+1\) 也是正确的,但是并不存在一种计算方法分摊两个解释变量 x 和 z 在建立模型时对 y 的贡献
  4. 过渡拟合:用大量的解释变量和相应的参数来建立多元回归,其拟合效果是良好的,但这种建立模型的方法并非有利,也有可能是没有用的;举例来说,假设一个线性模型是正确的,但是我们却用 9 次多项式来拟合 10 个数据;模型的数据拟合效果肯定非常好,但却是不对的;一个重要的原则是,数据点的数量应该是待估参数个数的 5 倍,最好是 10 倍
  5. 因果关系:不要把两个变量 x 和 y 之间的线性关系错误理解成因果关系;一个非常好的拟合可能是因为变量 x 是导致 y 的原因,也有可能 y 是导致 x 的原因;或者,有一些外在的因素,用变量 z 来刻画,以相同的方式影响着 x 和 y;一个具体的例子是 \(x_i\) 是第一个出生的孩子的财富,\(y_i\) 是同一个家庭中第二个出生的孩子的财富;粗略地预计 \(y_i\) 会随着 \(x_i\) 的增加而线性增长,但是这应该归功于共同家庭和背景的影响,而不是两个孩子之间的因果关系

3. 简单假设检验

本节将再次(与 8.2 对应)讨论如何从两个假设中进行选择;与 8.2 节贝叶斯公式表达不同,这里没有先验概率的假设

可以将此看作 \(\theta\) 只有两个可能取值的推断问题,但为保持一致,需要抛弃 \(\theta\) 的记号,而用 \(H_0\)\(H_1\) 代表两个假设

在传统的统计语言中,\(H_0\) 被称做原假设\(H_1\) 被称做备择假设;这个假设检验问题称为简单假设检验问题

这说明 \(H_0\) 的角色是默认的模型,根据得到的数据来决定是支持还是拒绝 \(H_0\)

观测随机变量 \(X=(X_1,\dots,X_n)\) 的分布依赖于假设

\(P(X\in A;H_j)\) 表示当假设 \(H_j\) 成立时 X 属于 A 的概率

类似地,记 \(p_X(x;H_j)\)\(f_X(x;H_j)\) 分别表示向量 X 在假设 \(H_j\) 下的分布列或概率密度函数

(注:注意区分 假设 和 条件)

我们希望找到一个决策准则将观测值 x 映射到其中一个假设中:\(g(x)=H_0\)\(g(x)=H_1\)

任何一个决策准则都可以用样本空间的一个分划来表达

  1. 拒绝域:定义为 R(即对于所有 \(x\in R\),都有 \(g(x)=H_1\)?);假设 \(H_0\)拒绝(声称 \(H_0\) 是错误的)
    1. \(H_0\) 假,则无误差
    2. \(H_0\) 真(\(H_1\) 假),则犯第一类错误
  2. 接受域:定义为 R 的补集 \(R^c\);假设 \(H_0\)接受(声称 \(H_0\) 是正确的)
    1. \(H_0\) 真,则无误差
    2. \(H_0\) 假(\(H_1\) 真),则犯第二类错误

(记 \(xy\)\(x,y=0/1\)),x 表示是否拒绝 \(H_0\),y 表示 \(H_y\) 为真;\(00\)\(11\) 表示无误差,\(10\) 是第一类错误,\(01\) 是第二类错误)

对于选定的拒绝域 R,有两种可能的错误:

  1. 第一类错误:拒绝 \(H_0\) 而实际上 \(H_0\) 是正确的,简称错拒;发生的概率是 \(\alpha(R)=P(X\in R;H_0)\)
  2. 第二类错误:接受 \(H_0\) 而实际上 \(H_0\) 是错误的,简称受假;发生的概率是 \(\beta(R)=P(X\notin R;H_1)\)