6.最小性&最小二乘法
6.1 节介绍向量空间中的距离和正交性的概念
6.2,6.3 说明正交性如何判定子空间 W 中的某个点是最接近 W 之外的一个给定点 y
6.5 通过把 W 设定为矩阵的列子空间,导出了可以求得不相容线性方程组的近似(“最小二乘”)解的方法
6.4 再次介绍正交投影的作用,导出了一个广泛应用于数值线性代数中的矩阵因式分解的方法
本章其余节的内容是检验实际应用中产生的一部分最小二乘问题,有些涉及比 \(\mathbb R^n\) 空间更一般的向量空间
1. 内积,长度,正交性
内积
假设 \(\mathbf u,\mathbf v\in\mathbb R^n\),
那么称 \(\mathbf u^T\mathbf v\in\mathbb R\) 为 \(\mathbf u\) 和 \(\mathbf v\) 的 内积 或 点积,记为 \(\mathbf u\cdot\mathbf v=\mathbf u^T\mathbf v=\sum\limits_{i=1}^nu_iv_i\)
性质:设 \(\mathbf u,\mathbf v,\mathbf w\in\mathbb R^n\),\(c\in\mathbb R\)
- \(\mathbf u\cdot\mathbf v=\mathbf v\cdot\mathbf u\)
- \((\mathbf u+\mathbf v)\cdot\mathbf w=\mathbf u\cdot\mathbf w+\mathbf v\cdot\mathbf w\)
- \((c\mathbf u)\cdot\mathbf v=c(\mathbf u\cdot\mathbf v)=\mathbf u\cdot(c\mathbf v)\)
- \(\mathbf u\cdot\mathbf u\ge0\)(\(\mathbf u\cdot\mathbf u=0\),当且仅当 \(\mathbf u=\mathbf 0\))
- 注:满足 交换律;点积-加法,点积-数乘 的分配率
例子
- \(\mathbf u=\begin{bmatrix}2\\-5\\-1\end{bmatrix},\mathbf v=\begin{bmatrix}3\\2\\-3\end{bmatrix}\),那么 \({\bf u\cdot v}=(2)(3)+(-5)(2)+(-1)(-3)=(3)(2)+(2)(-5)+(-3)(-1)={\bf v\cdot u}\)
向量长度
向量 \(\mathbf v\in\mathbb R^n\) 的长度(或 范数)为 \(\|\mathbf v\|=\sqrt{\bf v\cdot v}=\sqrt{\sum\limits_{i=1}^nv_i^2}\)(显然 \(\|\mathbf v\|^2=\mathbf v\cdot\mathbf v\))
性质1:\(\|c\mathbf v\|=|c|~\|\mathbf v\|\)
性质2:\(\mathbf v\) 的单位向量为 \(\mathbf u=\pm\frac {\mathbf v}{\|\mathbf v\|}\)
注:\(\mathbb R^n\) 下的范数就是向量各元素的几何平均数
例子
- \(\mathbf v=(1,-2,2,0)\) 的单位向量为 \((1/3,-2/3,2/3,0)\)
- 验证 \(\|\mathbf v\|=1\):只需验证 \(\|\mathbf v\|^2=\bf v\cdot v\)
- W 是 \(\mathbb R^n\) 的子空间且由向量 \(\mathbf x=(2/3,1)\) 生成,计算 W 的一个包含单位向量的基:\(\mathbf y=x\frac{\mathbf x}{\|\mathbf x\|}=\frac{3\mathbf x}{\|3\mathbf x\|}=(2/\sqrt{13},3/\sqrt{13})\)
距离
\(\mathbf u,\mathbf v\in\mathbb R^n\) 之间的距离定义为 \(\text{dist}(\mathbf u,\mathbf v)=\|\mathbf u-\mathbf v\|\)
例子
- \(\mathbf u=(7,1),\mathbf v=(3,2)\),\(\bf u,v\) 之间的距离为 \(\|\mathbf u-\mathbf v\|=\|(4,-1)\|=\sqrt{17}\)
- \(\mathbf u,\mathbf v\in\mathbb R^3\) 之间的距离为 \(\|\mathbf u-\mathbf v\|=\sqrt{(\mathbf u-\mathbf v)\cdot(\mathbf u-\mathbf v)}=\sqrt{(u_1-v_1)^2+(u_2-v_2)^2+(u_3-v_3)^2}\)
向量正交
两向量 \(\mathbf u,\mathbf v\in\mathbb R^n\) 正交,当且仅当 \(\text{dist}(\mathbf u,\mathbf v)=\text{dist}(\mathbf u,-\mathbf v)\),
当且仅当 \(\mathbf u\cdot\mathbf v=\mathbf0\)
证明:
\(\|\mathbf u-\mathbf v\|^2=\sum\limits_{i=1}^n(u_i-v_i)^2=\sum\limits_{i=1}^n(u_i^2-2u_iv_i+v_i^2)\)
\(\|\mathbf u-(-\mathbf v)\|^2=\sum\limits_{i=1}^n(u_i+v_i)^2=\sum\limits_{i=1}^n(u_i^2+2u_iv_i+v_i^2)\)
\(\|\mathbf u-\mathbf v\|^2=\|\mathbf u-(-\mathbf v)\|^2\) \(\iff\) \(\sum\limits_{i=1}^n(u_i^2-2u_iv_i+v_i^2)=\sum\limits_{i=1}^n(u_i^2+2u_iv_i+v_i^2)\)
即 \(4\sum\limits_{i=1}^nu_iv_i=0\) 或 \(\bf u\cdot v=0\)
\(\blacksquare\)
毕达哥拉斯(勾股)定理
两向量 \(\mathbf u,\mathbf v\in\mathbb R^n\) 正交,当且仅当 \(\|\mathbf u+\mathbf v\|^2=\|\mathbf u\|^2+\|\mathbf v\|^2\)
正交补
向量与向量空间的正交:向量 \(\mathscr z\) 与 \(\mathbb R^n\) 的子空间 W 中的所有向量都正交,称 \(\mathscr z\) 正交于 W
正交补:与子空间 W 正交的向量 \(\mathscr z\) 构成的集合,称为 W 的正交补,记作 \(W^\bot\)
性质1:向量 \(\mathbf x\in W^\bot\),当且仅当 \(\mathbf x\) 与 W 的任意向量都正交(\((W^\bot)^\bot=W\) ?)
性质2:\(W,W^\bot\) 同时是 \(\mathbb R^n\) 的子空间
性质3:\(W,W^\bot\subset\mathbb R^n\),那么 \(\dim W+\dim W^\bot=n\)(证明用到了秩定理)
注:\(W^\bot=\{\mathbf u:~\mathbf u\in\mathbb R^n,\forall\mathbf v\in W,\mathbf u\cdot\mathbf v=0\}\)
证明:\(W^\bot\) 是子空间
根据定义可知,\(W^\bot\subset\mathbb R^n\)
- \(\forall\mathbf v\in W,\mathbf 0\cdot\mathbf v=\mathbf 0\),蕴涵 \(\mathbf 0\in W^\bot\)
- \(\forall\mathbf x,\mathbf y\in W^\bot\),都有 \(\forall\mathbf v\in W,\mathbf x\cdot\mathbf v=\mathbf 0,\mathbf y\cdot\mathbf v=\mathbf 0\),蕴涵 \(\mathbf 0=\mathbf 0+\mathbf 0=\mathbf x\cdot\mathbf v+\mathbf y\cdot\mathbf v=(\mathbf x+\mathbf y)\cdot \mathbf v\),蕴涵 \(\mathbf x+\mathbf y\in W^\bot\)
- \(\forall\mathbf x\in W^\bot,c\in\mathbb R\),都有 \(\forall\mathbf v\in W,\mathbf x\cdot\mathbf v=\mathbf 0\),蕴涵 \((c\mathbf x)=c(\mathbf x\cdot\mathbf v)=c\mathbf 0=\mathbf 0\),蕴涵 \(c\mathbf x\in W^\bot\)
\(\blacksquare\)
定理
假设 \(A\in\mathbb R^{m\times n}\),那么 A 的行空间的正交补是 A 的零空间,且 A 的列空间的正交补是 \(A^T\) 的零空间,即:
\((\text{Row}A)^\bot=\text{Nul}A\),\((\text{Col}A)^\bot=\text{Nul}A^T\)
证明:\((\text{Row}A)^\bot=\text{Nul}A\)
- \(\forall\mathbf x\in\text{Nul}A,A\mathbf x=\mathbf 0\),蕴涵 \(\mathbf x\) 与 A 的各列正交,于是 \(\mathbf x\) 与 A 的各行的线性组合正交(使用到[内积公理]),即 \(\mathbf x\in(\text{Row}A)^\bot\)
- \(\forall\mathbf x\in(\text{Row}A)^\bot,\forall\mathbf v\in\text{Row}A,\mathbf x\cdot\mathbf v=\mathbf 0\),蕴涵 \(\mathbf v\cdot\mathbf x=\mathbf 0\),蕴涵 \(A\mathbf x=\mathbf 0\),蕴涵 \(\mathbf x\in\text{Nul}A\)
证明:\((\text{Col}A)^\bot=\text{Nul}A^T\)
由 \((\text{Row}A)^\bot=\text{Nul}A\) 和 \(\text{Col}A=\text{Row}A^T\),从而 \((\text{Col}A)^\bot=(\text{Row}A^T)^\bot=\text{Nul}A^T\)
\(\blacksquare\)
角度
\(\mathbf u,\mathbf v\in\mathbb R^n\) 之间的角度由下式决定:
\(\mathbf u\cdot\mathbf v=\|\mathbf u\|~\|\mathbf v\|\cos\mathfrak g\)
注:对于 \(n\ge 4\),\(\cos\mathfrak g\) 被统计学家称为相关系数
总结
- 实数组内积:假设 \(\mathbf u,\mathbf v\in\mathbb R^n\),\(\mathbf u\) 和 \(\mathbf v\) 的内积或点积定义为 \(\mathbf u\cdot\mathbf v=\mathbf u^T\mathbf v=\sum\limits_{i=1}^nu_iv_i\in\mathbb R\)
- 实数组内积定理:假设 \(\mathbf u,\mathbf v,\mathbf w\in\mathbb R^n\),\(c\in\mathbb R\)(继承自[6.7内积公理])
- 点积交换律 \(\mathbf u\cdot\mathbf v=\mathbf v\cdot\mathbf u\)
- 加法和点积的分配律 \((\mathbf u+\mathbf v)\cdot\mathbf w=\mathbf u\cdot\mathbf w+\mathbf v\cdot\mathbf w\)
- 标量乘法和点积的结合律 \((c\mathbf u)\cdot\mathbf v=c(\mathbf u\cdot\mathbf v)=\mathbf u\cdot(c\mathbf v)\)
- \(\mathbf u\cdot\mathbf u\ge0\)(\(\mathbf u\cdot\mathbf u=0\),当且仅当 \(\mathbf u=\mathbf 0\))
- 长度(范数),单位向量,距离:假设 \(\mathbf u,\mathbf v\in\mathbb R^n\): \(\mathbf u\) 的范数为 \(\|\mathbf u\|=\sqrt{\bf u\cdot u}\)(\(\|\mathbf u\|^2=\mathbf u\cdot\mathbf u\)),满足 \(\|c\mathbf u\|=|c|\|\mathbf u\|\);\(\mathbf u\) 的单位向量为 \(\pm\frac{\mathbf u}{\|\mathbf u\|}\);\(\mathbf u\) 和 \(\mathbf v\) 之间的距离为 \(\text{dist}(\mathbf u,\mathbf v)=\|\mathbf u-\mathbf v\|\)
- 正交,毕达哥拉斯定理(勾股定理),正交补:\(\bf u,v\) 正交(记 \(\bf u\bot v\)),当且仅当 \(\text{dist}(\mathbf u,\mathbf v)=\text{dist}(\mathbf u,-\mathbf v)\),等价于 \(\bf u\cdot v=0\),等价于 \(\|\mathbf u+\mathbf v\|^2=\|\mathbf u\|^2+\|\mathbf v\|^2\)(毕达哥拉斯定理);\(\mathbf u\) 与向量空间 W 正交(记 \(\mathbf u\bot W\)),当且仅当 \(\forall\mathbf v\in W,\bf u\cdot v=0\);所有与子空间 W 正交的向量构成集合,称为 W 的正交补,记为 \(W^\bot=\{\mathbf u:~\mathbf u\in\mathbb R^n,\mathbf u\bot W\}\)
- 正交补的性质:(1) \(\mathbf x\in W^\bot\),当且仅当 \(\forall\mathbf v\in W,\mathbf x\cdot\mathbf v=0\),(2) \(\mathbb R^n\) 的子空间,(3) \(\forall W,W^\bot\subset\mathbb R^n\),\(\dim W+\dim W^\bot=n\)
- 定理:若 \(A\in M_{m\times n}\),那么 (1) \((\text{Row}A)^\bot=\text{Nul}A\),(2) \((\text{Col}A)^\bot=\text{Nul}A^T\)
- 角度:\(\mathbf u,\mathbf v\in\mathbb R^n\) 之间的角度 \(\theta\) 由 \(\mathbf u\cdot\mathbf v=\|\mathbf u\|~\|\mathbf v\|\cos\theta\) 定义
练习
- \(\mathbf a=\begin{bmatrix}-2\\1\end{bmatrix},\mathbf b=\begin{bmatrix}-3\\1\end{bmatrix}\),计算 \(\frac{\bf a\cdot b}{\bf a\cdot a},(\frac{\bf a\cdot b}{\bf a\cdot a})\mathbf a\)
- \(\mathbf c=\begin{bmatrix}4/3\\-1\\2/3\end{bmatrix},\mathbf d=\begin{bmatrix}5\\6\\-1\end{bmatrix}\)
- 计算向量 \(\bf c\) 方向的单位向量 \(\bf u\)
- 证明:\(\bf d,c\) 正交
- 解释为什么 \(\bf d\) 正交于单位向量 \(\bf u\)
- W 是 \(\mathbb R^n\) 的子空间,证明:\(\dim W+\dim W^\bot=n\)
- 判断题(假设 \(\bf x,u,v\in\mathbb R^n,c\in\mathbb R\))
- \(\mathbf v\cdot\mathbf v=\|\mathbf v\|^2\)(Y)
- \(\mathbf u\cdot(c\mathbf v)=c(\mathbf u\cdot\mathbf v)\)(Y)
- 如果 \(\bf u\) 到 \(\bf v\) 的距离等于 \(\bf u\) 到 \(-\bf v\) 的距离,那么 \(\bf u,v\) 正交(Y)
- 对于方阵 A,\(\text{Col}A\) 中的向量与 \(\text{Nul}A\) 中的向量正交(X)
- 如果向量 \(\mathbf v_1,\cdots,\mathbf v_p\) 生成子空间 W,且 \(\forall i=1..p,\mathbf x\cdot\mathbf b_i=0\),那么 \(\mathbf x\in W^\bot\)(Y)
- \(\mathbf u\cdot\mathbf v-\mathbf v\cdot\mathbf u=0\)(Y)
- \(\|c\mathbf u\|=c\|\mathbf u\|\)(X)
- 若 \(\bf x\) 与子空间 W 中任一向量正交,那么 \(\mathbf x\in W^\bot\)(Y)
- \(\|\mathbf u\|^2+\|\mathbf v\|^2=\|\mathbf u+\mathbf v\|^2\),那么 \(\bf u,v\) 相互正交(Y)
- \(m\times n\) 矩阵 A 的零空间中的向量与 A 的行空间中的向量正交(Y)
- 如何计算:(1) \(\bf u,v\) 的点积,(2) \(\bf u\) 的范数,单位向量(同向或反向),(3) \(\bf u,v\) 的距离,夹角,正交性
- 证明平行四边形法则:\(\forall\bf u,v\in\mathbb R^n\),\(\|\mathbf u+\mathbf v\|^2+\|\mathbf u-\mathbf v\|^2=2(\|\mathbf u\|^2+\|\mathbf v\|^2)\)
- 假设 \(\begin{bmatrix}a\\b\\c\end{bmatrix}\),计算 \(W=\text{Span}\left\{\mathbf v\right\}\) 的正交补
- 证明:若 \(\mathbf y\) 与 \(\bf u\) 和 \(\bf v\) 都正交,那么 \(\bf v\) 与 \(H=\text{Span}\{\bf u,v\}\) 正交
- 证明:若 \(\mathbf y\) 与 \(\forall i=1..p,\mathbf v_i\) 正交,那么 \(\mathbf y\) 与 \(\text{Span}\{\mathbf v_1,\cdots,\mathbf v_p\}\) 正交
- 证明:\(\{\mathbf 0\}=W\cap W^\bot\)
提示
(1) \(\frac{\bf a\cdot b}{\bf a\cdot a}=\frac75,(\frac{\bf a\cdot b}{\bf a\cdot a})\mathbf a=\begin{bmatrix}-14/5\\7/5\end{bmatrix}\)
(2)
- \(\mathbf u=\frac{\mathbf c}{\|\mathbf c\|}=\frac{3\mathbf c}{\|3\mathbf c\|}=\begin{bmatrix}4/\sqrt{29}\\-3/\sqrt{29}\\2/\sqrt{29}\end{bmatrix}\)
- \(\mathbf d\cdot\mathbf c=(4/3)(5)+(-1)(6)+(2/3)(-1)=0\),蕴涵 \(\mathbf d,\mathbf c\) 正交
- \(\mathbf d\cdot\mathbf u=\mathbf d\cdot(\frac1{\|\bf c\|}\mathbf c)=\frac1{\|\bf c\|}(\mathbf d\cdot\mathbf c)=\frac1{\|\bf c\|}0=0\)
(3)
若 \(W=\{\mathbf 0\}\),而 \(\forall\mathbf x\in\mathbb R^n,\mathbf 0\cdot\mathbf x=0\),蕴涵 \(\mathbb R^n=W^\bot\),于是 \(\dim W+\dim W^\bot=n\)
若 \(W\ne\{\mathbf 0\}\),假设 \(\{\bf b_1,\cdots,b_p\}\) 是 W 的一个基(\(1\le p\le n\)),设矩阵 A 的各行为 \(\mathbf b_1^T,\cdots,\mathbf b_p^T\),于是 \(W=\text{Row}A\),而 \(W^\bot=(\text{Row}A)^\bot=\text{Nul}A\),于是 \(\dim W+\dim W^\bot=\dim\text{Row}A+\dim\text{Nul}A=n\)(根据[4.4秩定理])
(5)
- \(\mathbf u\cdot\mathbf v=\sum\limits_{i=1}^nu_iv_i\)
- \(\|\mathbf u\|=\sqrt{\sum\limits_{i=1}^nu_i^2}\),\(\mathbf e_u=\pm\frac{\mathbf u}{\|\mathbf u\|}\)
- \(\|\mathbf u-\mathbf v\|=\sum\limits_{i=1}^n(u_i-v_i)^2\),\(\cos\theta=\frac{\mathbf u\cdot\mathbf v}{\|\mathbf u\|\|\mathbf v\|}=\mathbf e_u\cdot\mathbf e_u\)(假设 \(\bf u,v\ne0\)),\(\bf u\cdot v=0\iff \bf u\bot v\)
(7) 方程组 \(\mathbf v^T\mathbf x=\mathbf 0\) 的解集即为 \(W^\bot=\begin{cases}\text{Span}\left\{\begin{bmatrix}-b/a\\1\\0\end{bmatrix},\begin{bmatrix}-c/a\\0\\1\end{bmatrix}\right\}&a\ne0\\\text{Span}\left\{\begin{bmatrix}1\\0\\0\end{bmatrix},\begin{bmatrix}0\\-c/b\\1\end{bmatrix}\right\}&a=0,b\ne0\\\text{Span}\left\{\begin{bmatrix}1\\0\\0\end{bmatrix},\begin{bmatrix}0\\1\\0\end{bmatrix}\right\}&a=b=0,c\ne0\\\mathbb R^3&a=b=c=0\end{cases}\)
(8) \(\forall\mathbf x\in H,\exists c_1,c_2\in\mathbb R\),使得 \(\mathbf x=c_1\mathbf u+c_2\mathbf v\)
\(\mathbf y\cdot\mathbf x=\mathbf y\cdot(c_1\mathbf u+c_2\mathbf v)=\mathbf y\cdot(c_1\mathbf u)+\mathbf y\cdot(c_2\mathbf v)=c_1(\mathbf y\cdot\mathbf u)+c_2(\mathbf y\cdot\mathbf v)=0\),
于是 \(\mathbf y\) 与 H 正交
(9) 也就是 (8) 的推广,原理也是[内积公理]
(10)
2. 正交集
正交集,正交集定理,正交基,正交基定理
正交集:\(\mathbb R^n\) 中的向量集合 \(\{\mathbf u_1,\dots,\mathbf u_p\}\) 称为正交集,当且仅当集合中任意两个向量都正交(对于所有 \(i\ne j\),\(\mathbf u_i\cdot\mathbf u_j=0\))
正交集定理:\(S=\{\mathbf u_1,\dots,\mathbf u_p\}\) 是 \(\mathbb R^n\) 中非零向量构成的正交集,那么 S 是线性无关集(因此 S 是 \(\text{Span}(S)\) 的一组基)
正交基:定义为 \(\mathbb R^n\) 中的子空间 W 的一个不含零向量的正交集
正交基定理:\(\{\mathbf u_1,\dots,\mathbf u_p\}\) 是 \(\mathbb R^n\) 中子空间 W 的正交基;对于所有 \(\mathbf y\in W\),线性组合 \(\mathbf y=\sum\limits_{i=1}^pc_i\mathbf u_i\) 中的权可以由 \(c_i=\frac{\mathbf y\cdot\mathbf u_i}{\mathbf u_i\cdot\mathbf u_i}\) 计算
正交基定理(形式2):\(\{\mathbf u_1,\dots,\mathbf u_p\}\) 是 \(\mathbb R^n\) 中子空间 W 的正交基;对于所有 \(\mathbf y\in W\),\(\mathbf y=\sum\limits_{i=1}^p\text{proj}_{L_i}\mathbf y\)(其中 \(L_i=\text{Span}\{\mathbf u_i\}\);参见“正交投影”的概念)
(1) 证明:不含零向量的正交集 \(S=\{\mathbf u_1,\dots,\mathbf u_p\}\) 是线性无关的 [正交集定理]
显然 \(\exists c_1,\cdots,c_p\in\mathbb R\),使得 \(\sum\limits_{i=1}^pc_i\mathbf u_i=\mathbf 0\)
于是 \(\forall j=1..p\),有 \(\mathbf u_j\cdot\sum\limits_{i=1}^pc_i\mathbf u_i=\mathbf u_j\cdot\mathbf 0\),即 \(\sum\limits_{i=1}^pc_i(\mathbf u_j\cdot\mathbf u_i)=0\)
由于 S 是正交集(\(\forall i\ne j\in S,\mathbf u_i\cdot\mathbf u_j=0\)),于是 \(c_j(\mathbf u_j\cdot\mathbf u_j)=0\)
而 \(\mathbf u_j\ne0\),蕴涵 \(\mathbf u_j\cdot\mathbf u_j>0\),于是 \(c_j=0\)(\(\forall j=1..p\)),即 S 是线性无关的
(2) 证明:[正交基定理]
根据张成集的定义,\(\forall\mathbf x\in\text{Span}\{\mathbf u_1,\cdots,\mathbf u_p\},\exists c_1,\cdots,c_p\) 使得 \(\mathbf x=\sum\limits_{j=1}^pc_j\mathbf u_j\)
\(\forall i=1..p\),对上式左乘上点积有 \(\mathbf u_i\cdot\mathbf x=\mathbf u_i\cdot\sum\limits_{j=1}^pc_j\mathbf u_j\),
根据正交基的性质,于是 \(\mathbf u_i\cdot\mathbf x=c_i(\mathbf u_i\cdot\mathbf u_i)\),即 \(c_i=\frac{\mathbf u_i\cdot\mathbf x}{\mathbf u_i\cdot\mathbf u_i}\)
\(\blacksquare\)
例子
- \(\mathbf u_1=\begin{bmatrix}3\\1\\1\end{bmatrix},\mathbf u_2=\begin{bmatrix}-1\\2\\1\end{bmatrix},\mathbf u_3=\begin{bmatrix}-1/2\\-2\\7/2\end{bmatrix}\),可以验证 \(S=\{\mathbf u_1,\mathbf u_2,\mathbf u_3\}\) 是 \(\text{Span}(\mathcal S)\) 的一个正交基,\(\mathbf y=\begin{bmatrix}6\\1\\-8\end{bmatrix}\) 的 \(\mathcal S-坐标\) 为 \([\mathbf y]_{\cal S}=\begin{bmatrix}11/11\\-12/6\\-33/(33/2)\end{bmatrix}=\begin{bmatrix}1\\-2\\-2\end{bmatrix}\)
正交投影
给定非零向量 \(\mathbf u\in\mathbb R^n\),\(\mathbf y\in\mathbb R^n\) 可以分解为两正交向量之和:\(\mathbf y=\hat y+\mathscr z=\alpha\mathbf u+\mathscr z=\frac{\mathbf u\cdot\mathbf y}{\mathbf u\cdot\mathbf u}\mathbf u+\mathscr z\)
正交投影:\(\hat y=\frac{\mathbf u\cdot\mathbf y}{\mathbf u\cdot\mathbf u}\mathbf u\) 称为 \(\mathbf y\) 在 \(\mathbf u\) 上的正交投影,记为 \(\hat y=\text{proj}_L\mathbf y=\frac{\mathbf u\cdot\mathbf y}{\mathbf u\cdot\mathbf u}\mathbf u\)(L 为 \(\mathbf u\) 生成的子空间,即 \(L=\text{Span}\{\mathbf u\}\))
\(\mathbf y\) 与 \(\mathbf u\) 正交的分量:\(\mathscr z=\mathbf y-\hat y\)
性质:\(\hat y\) 与 \(\mathbf z\) 构成正交集 \(\{\hat y,\mathbf y-\hat y\}\)
注:对于 \(\mathbb R^2\),\(\hat y\) 对应的点距离 \(\mathbf y\) 对应的点最近,距离为 \(\|\mathscr z\|\)
例子
- \(\mathbf y=\begin{bmatrix}7\\6\end{bmatrix}\) 在 \(\mathbf u=\begin{bmatrix}4\\2\end{bmatrix}\) 上的正交分解:设 \(\begin{bmatrix}7\\6\end{bmatrix}=\frac{\mathbf y\cdot\mathbf u}{\mathbf u\cdot\mathbf u}\mathbf u+\mathbf z\),解得 \(\frac{\mathbf y\cdot\mathbf u}{\mathbf u\cdot\mathbf u}=2,\mathbf z=\begin{bmatrix}-1\\2\end{bmatrix}\)
- \(\mathbf y\) 到 \(L=\text{Span}\{\mathbf u\}\) 的距离为 \(\|\mathbf z\|=\|\mathbf y-\hat y\|=\|\mathbf y-\text{proj}_{L(\mathbf u)}\mathbf y\|=\|\mathbf y-(\frac{\mathbf y\cdot\mathbf u}{\mathbf u\cdot\mathbf u})\mathbf u\|\),而非 \(\|\mathbf y-\mathbf u\|\)
- 二维或三维空间上的力可以分解为在某个感兴趣的正交基的各个元素上的投影之和
单位正交集(基),正交矩阵
单位正交集:集合 \(\{\mathbf u_1,\dots,\mathbf u_p\}\) 是单位正交集,当且仅当 它是有单位向量构成的正交集
单位正交基:W 是一个由单位正交集合生成的子空间,那么 \(\{\mathbf u_1,\dots,\mathbf u_p\}\) 是 W 的单位正交基
单位正交定理:矩阵 \(U\in\mathbb R^{m\times n}\) 具有单位正交列向量,当且仅当 \(U^TU=I_n\)(\(\det U=\pm1\))
单位正交性质:矩阵 \(U\in\mathbb R^{m\times n}\) 具有单位正交列向量,\(\mathbf x,\mathbf y\in\mathbb R^n\),那么:(证明详见习题 25)
- \((U\mathbf x)\cdot(U\mathbf y)=\mathbf x\cdot\mathbf y\)
- \(\|U\mathbf x\|=\|\mathbf x\|\)
- \((U\mathbf x)\cdot(U\mathbf y)=0\),当且仅当 \(\mathbf x\cdot\mathbf y=0\)
正交矩阵:满足 \(U^{-1}=U^T\) 的可逆方阵 \(U\in\mathbb R^{n\times n}\)(具有单位正交列的方阵是正交矩阵,此类矩阵同样具有单位正交行)
应用:若对称矩阵 \(A\in M_{n\times n}\) 具有 n 个本质不同的特征值,那么对 A 的对角化(“对角分解”)使得 \(A=PDP^{-1}=PDP^T\)(仅当 P 为单位矩阵)成立 (其中 P 的各列正交;详见 5.3 和 7.1)
证明:[单位正交定理]
\(U^TU=\begin{bmatrix}\mathbf u_1^T\\\vdots\\\mathbf u_n^T\end{bmatrix}\begin{bmatrix}\mathbf u_1\cdots\mathbf u_n\end{bmatrix}=\begin{bmatrix}\mathbf u_1^T\mathbf u_1&\cdots&\mathbf u_1^T\mathbf u_n\\\vdots&&\vdots\\\mathbf u_n^T\mathbf u_1&\cdots&\mathbf u_n^T\mathbf u_n\end{bmatrix}=\begin{bmatrix}\mathbf u_1\cdot\mathbf u_1&\cdots&\mathbf u_1\cdot\mathbf u_n\\\vdots&&\vdots\\\mathbf u_n\cdot\mathbf u_1&\cdots&\mathbf u_n\cdot\mathbf u_n\end{bmatrix}\)
(1) \(\forall i,j=1..n,i\ne j,\mathbf u_i\cdot\mathbf u_j=0\),当且仅当 \(U^TU\) 是对角矩阵
(2) \(\forall i=1..n,\mathbf u_i\cdot\mathbf u_i=1\),当且仅当 \(U^TU\) 的对角线是单位的
(1) 和 (2) 同时满足(即 U 的各列是单位正交的),等价于 \(U^TU\) 是单位矩阵 \(I_n\)
证明:[正交单位性质]
\(\forall\mathbf x,\mathbf y\in\mathbb R^m\)
- \((U\mathbf x)\cdot(U\mathbf y)=(U\mathbf x)^T(U\mathbf y)=(\mathbf x^TU^T)(U\mathbf y)=\mathbf x^T((U^TU)\mathbf y)=\mathbf x^T(I_n\mathbf y)=\mathbf x^T\mathbf y=\mathbf x\cdot\mathbf y\)
- 由 (1) 有 \((U\mathbf x)\cdot(U\mathbf x)=\mathbf x\cdot\mathbf x\),蕴涵 \(\sqrt{(U\mathbf x)\cdot(U\mathbf x)}=\sqrt{\mathbf x\cdot\mathbf x}\),即 \(\|U\mathbf x\|=\|\mathbf x\|\)
- 由 (1) 有 \((U\mathbf x)\cdot(U\mathbf y)=0\) 等价于 \(\mathbf x\cdot\mathbf y=0\)
\(\blacksquare\)
例子
- 要检验 \(U^TU=I_n\),只需要检验 \(U^TU\) 的主对角线以及上三角的区域即可(根据[点积的交换律])
总结
- 正交集,正交基:若 \(\mathbb R^n\) 中的向量集 \(S=\{\mathbf v_1,\cdots,\mathbf v_p\}\) 中任意两个向量都正交,那么 S 称为正交集;若 S 不含零向量,那么 S 称为正交基(顾名思义,S 也是 \(\text{Span}(S)\) 一组基)
- 正交基定理:假设 \(\mathcal B=\{\mathbf v_1,\cdots,\mathbf v_p\}\) 是正交基,那么 \(\forall\mathbf x\in\text{Span}(\cal B)\),\(\mathbf x\) 的坐标向量 \([\mathbf x]_{\cal B}\) 的每个元素为 \(\forall i=1..p,c_i=\frac{\mathbf v_i\cdot\mathbf x}{\mathbf v_i\cdot\mathbf v_i}\)(\(\mathbf x\) 可以表示为 \(\mathbf x=\sum\limits_{i=1}^pc_i\mathbf v_i=\sum\limits_{i=1}^p\text{proj}_{L(\mathbf v_i)}\mathbf x\))
- 正交分解,正交投影,正交分量,投影距离:\(\forall\mathbf y\in\mathbb R^n\),\(\mathbf y\) 可以表示为 \(\mathbf y=\hat y+\mathbf z\)(其中 \(\hat y=c\mathbf u\),\(\mathbf u\cdot\mathbf z=0\))或 \(\mathbf y=(\frac{\mathbf y\cdot\mathbf u}{\mathbf u\cdot\mathbf u})\mathbf u+\mathbf z\),该式称为 \(\mathbf y\) 在 \(\mathbf u\) 上的正交分解;记 \(\text{proj}_{L(\mathbf u)}\mathbf y=\hat y\) 为 \(\mathbf y\) 在 \(\mathbf u\) 上的正交投影,记 \(\mathbf z=\mathbf y-\hat y\) 为 \(\mathbf y\) 与 \(\mathbf u\) 正交的分量(正交投影与正交分量构成正交集:\(\{\hat y,\mathbf z\}\));\(\mathbf y\) 到 \(\mathbf u\) 上的投影距离为 \(\|\mathbf z\|=\|\mathbf y-\hat y\|=\|\mathbf y-\text{proj}_{L(\mathbf u)}\mathbf y\|=\|\mathbf y-(\frac{\mathbf y\cdot\mathbf u}{\mathbf u\cdot\mathbf u})\mathbf u\|\)
- 单位正交基(单位正交集):有单位向量构成的正交集,称为单位正交集,同时也是单位正交基
- 单位正交定理:\(m\times n\) 矩阵 A 的各列是单位正交的(即 A 的各列是 \(\text{Col}A\) 的一组单位正交基),当且仅当 \(A^TA=I_n\)(也可以对 A 的各行做类似定义)
- 单位正交性质:若 \(m\times n\) 矩阵 A 的各列是单位正交的,那么:(\(\forall\mathbf x,\mathbf y\in\mathbb R^n\))
- \((A\mathbf x)\cdot(A\mathbf y)=\mathbf x\cdot\mathbf y\)
- \(\|A\mathbf x\|=\|\mathbf x\|\)(线性映射 \(\mathbf x\mapsto A\mathbf x\) 保持长度不变)
- \((A\mathbf x)\cdot(A\mathbf y)=0\),当且仅当 \(\mathbf x\cdot\mathbf y=0\)
- 正交矩阵(即 单位正交方阵):若 \(n\times n\) 矩阵 A 满足 \(A^{-1}=A^T\),那么 A 称为正交矩阵(具有单位正交列的方阵)
一级结论
- 若方阵 A 具有单位正交列,那么 A 是正交矩阵
- \(m\times n\) 矩阵 A 的各列是正交的,当且仅当 \(A^TA=D\)(D 是对角矩阵)
- A 是正交矩阵,当且仅当 A 的各列单位正交的
- \(\forall\mathbf y,\mathbf u\in\mathbb R^n,c\ne0,\text{proj}_{L(c\mathbf u)}\mathbf y=\text{proj}_{L(\mathbf u)}\mathbf y\)
- 若 \(A\in M_{m\times n}\) 各列正交,那么 \(\forall\mathbf x,\mathbf y\in\mathbb R^n,(A\mathbf x)\cdot(A\mathbf y)=\mathbf x^TA^TA\mathbf y=\mathbf x^TD\mathbf y=(D^T\mathbf x)\cdot\mathbf y=(D\mathbf x)\cdot\mathbf y\)
二级结论
- 若对称矩阵 A 有 n 个相异的特征值,那么 A 可对角化为 \(A=PDP^{-1}=PDP^T\)(其中 P 是正交矩阵)
练习
- 证明:假设 \(\mathbf u_1=\begin{bmatrix}-1/\sqrt5\\2/\sqrt5\end{bmatrix},\mathbf u_2=\begin{bmatrix}2/\sqrt5\\1/\sqrt5\end{bmatrix}\),\(\{\mathbf u_1,\mathbf u_2\}\) 是 \(\mathbb R^2\) 的单位正交基
- 假设 \(\mathbf y=\begin{bmatrix}7\\6\end{bmatrix},\mathbf u=\begin{bmatrix}2\\1\end{bmatrix}\),计算:\(\mathbf y\) 在直线 \(L(\mathbf u)=\text{Span}\{\mathbf u\}\) 上的正交投影
- 假设 \(U=\begin{bmatrix}1/\sqrt2&2/3\\1/\sqrt2&-2/3\\0&1/3\end{bmatrix},\mathbf x=\begin{bmatrix}\sqrt2\\3\end{bmatrix},\mathbf y=\begin{bmatrix}-3\sqrt2\\6\end{bmatrix}\),验证:\((U\mathbf x)\cdot(U\mathbf y)=\mathbf x\cdot\mathbf y\)
- 证明:若 U 是具有单位正交列的矩阵,那么 \(\det U=\pm1\)
- 判断题
- \(\mathbb R^n\) 中的每个线性无关集并非都是正交集(Y)
- 若 \(\mathbf y\) 是正交集中非零向量的线性组合,那么线性组合的权可以不用矩阵的行变换求得(Y)
- 如果非零向量构成的正交集中的向量被单位化,那么,其中一些新向量可能不正交(X)
- 一个具有单位正交列的矩阵是正交矩阵(X)
- 若 L 是通过原点的直线,并且 \(\hat y\) 是 \(\mathbf y\) 在 L 上的投影,那么 \(\|\hat y\|\) 表示 \(\mathbf y\) 到 L 的距离(x)
- \(\mathbb R^n\) 中的每个正交集并非都是线性无关的(Y)
- 若 \(S=\{\mathbf u_1,\cdots,\mathbf u_p\}\) 满足 \(\forall i\ne j,\mathbf u_i\cdot\mathbf u_j=0\),那么 S 是单位正交集(X)
- 若矩阵 A 的列是单位正交的,那么线性映射 \(\mathbf x\mapsto A\mathbf x\) 保持长度不变(Y)
- 向量 \(\mathbf y\) 在 \(\mathbf v\) 上的正交投影和 \(\mathbf y\) 在 \(c\mathbf v\)(\(c\ne0\))上的正交投影一致(Y)
- 正交矩阵可逆(Y)
- 假设 \(S=\{\begin{bmatrix}-1\\4\\-3\end{bmatrix},\begin{bmatrix}5\\2\\1\end{bmatrix},\begin{bmatrix}3\\-4\\-7\end{bmatrix}\}\),判断 S 是否是正交集
- 假设 \(\mathbf{u}_1=\begin{bmatrix}1\\0\\1\end{bmatrix},\mathbf{u}_2=\begin{bmatrix}-1\\4\\1\end{bmatrix},\mathbf{u}_3=\begin{bmatrix}2\\1\\-2\end{bmatrix},\mathbf{x}=\begin{bmatrix}8\\-4\\-3\end{bmatrix}\),(1) 证明:\(\mathcal B=\{\mathbf u_1,\mathbf u_2,\mathbf u_3\}\) 是 \(\mathbb R^3\) 的正交基,(2) 计算 \([\mathbf y]_{\cal B}\)
- 假设 \(\mathbf x=\begin{bmatrix}1\\7\end{bmatrix},\mathbf u=\begin{bmatrix}-4\\2\end{bmatrix}\),计算 \(\bf x\) 在直线 \(L(\bf u)\) 上的正交投影
- 假设 \(\mathbf x=\begin{bmatrix}2\\3\end{bmatrix},\mathbf u=\begin{bmatrix}4\\-7\end{bmatrix}\),计算:\(\bf x\) 在 \(\bf u\) 上的正交分解
- 假设 \(\mathbf x=\begin{bmatrix}3\\1\end{bmatrix},\mathbf u=\begin{bmatrix}8\\6\end{bmatrix}\),计算:\(\bf x\) 到直线 \(L(\bf u)\) 直线之间的距离
- 证明:A 是正交矩阵,当且仅当 A 的各列是单位正交的
- 证明:若 \(U,V\) 是 \(n\times n\) 正交矩阵,那么 \(UV\) 也是正交矩阵
- 说明正交矩阵交换一些列或行后仍是正交矩阵
- 证明:\(\forall\mathbf y,\mathbf u\in\mathbb R^n,c\ne0,\text{proj}_{L(c\mathbf u)}\mathbf y=\text{proj}_{L(\mathbf u)}\mathbf y\)
- 证明:\(\forall\mathbf u\ne\mathbf 0\),\(\mathbf x\mapsto\text{proj}_{L(\mathbf u)}\mathbf x\) 是线性变换
- 假设 \(\mathbf y\in\mathbb R^n,\mathbf u\ne\mathbf 0\),定义 \(\text{refl}_{L(\mathbf u)}\mathbf y=\mathbf y-2(\mathbf y-\text{proj}_{L(\mathbf u)}\mathbf x)=2\text{proj}_{L(\mathbf u)}\mathbf x-\mathbf y\) 为 \(\mathbf y\) 在 \(\mathbf u\) 上的反射
- 证明:\(\forall\mathbf u\ne\mathbf 0\),\(\mathbf x\mapsto\text{refl}_{L(\mathbf u)}\mathbf x\) 是线性变换
提示
(1) \(\mathbf u_1\cdot\mathbf u_1=1,\mathbf u_2\cdot\mathbf u_2=1,\mathbf u_1\cdot\mathbf u_2=0\),所以 \(\{\mathbf u_1,\mathbf u_2\}\) 是 \(\mathbb R^2\) 的单位正交基
(2) \(\text{proj}_{L(\mathbf u)}\mathbf y=(\frac{\mathbf y\cdot\mathbf u}{\mathbf u\cdot\mathbf u})\mathbf u=\frac{20}5\mathbf u=\begin{bmatrix}8\\4\end{bmatrix}\)
(3) \(U\mathbf x=\begin{bmatrix}3\\-1\\1\end{bmatrix},U\mathbf y=\begin{bmatrix}1\\-7\\2\end{bmatrix},(U\mathbf x)\cdot(U\mathbf y)=12\);而 \(\mathbf x\cdot\mathbf y=12\);于是 \((U\mathbf x)\cdot(U\mathbf y)=\mathbf x\cdot\mathbf y\)
(4) 由于 \(U^TU=I_n\) 有 \(\det(U^TU)=\det I_n\),即 \((\det U^T)(\det U)=1\),即 \((\det U)^2=1\),即 \(\det U=\pm1\)
(6) \(\begin{bmatrix}-1\\4\\-3\end{bmatrix}\cdot\begin{bmatrix}3\\-4\\-7\end{bmatrix}=2\ne0\),于是 S 不是正交集
(7)
- \(\mathbf u_1\cdot\mathbf u_2=0,\mathbf u_2\cdot\mathbf u_3=0,\mathbf u_1\cdot\mathbf u_3=0\),并且 \(\forall i=1..3,\mathbf u_i\ne\mathbf 0\),于是 \(\cal B\) 是正交基
- 根据[正交基定理]\(,[\mathbf x]_{\cal B}=\begin{bmatrix}(\mathbf u_1\cdot\mathbf x)/(\mathbf u_1\cdot\mathbf u_1)\\(\mathbf u_2\cdot\mathbf x)/(\mathbf u_2\cdot\mathbf u_2)\\(\mathbf u_3\cdot\mathbf x)/(\mathbf u_3\cdot\mathbf u_3)\end{bmatrix}=\begin{bmatrix}5/2\\-27/18\\18/9\end{bmatrix}=\begin{bmatrix}5/2\\-3/2\\2\end{bmatrix}\)
(8) \(\text{Porj}_{L(\bf u)}\mathbf x=(\frac{\bf u\cdot x}{\bf u\cdot u})\mathbf u=\frac{10}{20}\mathbf u=\begin{bmatrix}-2\\1\end{bmatrix}\)
(9) 假设 \(\mathbf x=\text{Porj}_{L(\bf u)}\mathbf x+\mathbf z\)(\((\text{Porj}_{L(\bf u)}\mathbf x)\cdot\mathbf z=0\)),解得 \(\text{Porj}_{L(\bf u)}\mathbf x=\frac{-13}{65}\mathbf u=\begin{bmatrix}-4/5\\7/5\end{bmatrix},\mathbf z=\mathbf x-\text{Porj}_{L(\bf u)}\mathbf x=\begin{bmatrix}14/5\\8/5\end{bmatrix}\),于是 \(\mathbf x=\begin{bmatrix}-4/5\\7/5\end{bmatrix}+\begin{bmatrix}14/5\\8/5\end{bmatrix}\)
(10) \(\bf x\) 在 \(\bf u\) 上的正交分解为 \(\mathbf x=\text{Porj}_{L(\bf u)}\mathbf x+\mathbf z=\begin{bmatrix}12/5\\9/5\end{bmatrix}+\begin{bmatrix}3/5\\-4/5\end{bmatrix}\)
于是 \(\bf x\) 到 \(L(\bf u)\) 的距离为 \(\|\mathbf z\|=1\)
(11)
U 的各列是单位正交的,等价于 \(U^TU=I_n\),根据[可逆矩阵定理],U 可逆,并且 \(U^{-1}=U^T\),即 U 是正交矩阵
(12)
\(U,V\) 是正交矩阵,蕴涵 \(U^{-1}=U^T,V^{-1}=V^T\),蕴涵 \(UV\) 可逆
于是 \((UV)^{-1}=V^{-1}U^{-1}=V^TU^T=(UV)^T\)
(13) 交换正交矩阵的列或行不会改变各列之间的正交关系
(14) \(\text{proj}_{L(c\mathbf u)}\mathbf y=\left[\frac{(c\mathbf u)\cdot\mathbf y}{(c\mathbf u)\cdot(c\mathbf u)}\right]c\mathbf u=\frac1c\left[\frac{\mathbf u\cdot\mathbf y}{\mathbf u\cdot\mathbf u}\right]c\mathbf u=\left[\frac{\mathbf u\cdot\mathbf y}{\mathbf u\cdot\mathbf u}\right]\mathbf u=\text{proj}_{L(\mathbf u)}\mathbf y\)
3. 正交投影
对给定向量 \(\mathbf y\in\mathbb R^n\) 和 \(\mathbb R^n\) 的子空间 W,存在 \(\hat y\in W\),满足:
- \(\mathbf y-\hat y\) 与 W 正交
- \(\hat y\) 是 W 中唯一最接近 \(\mathbf y\) 的向量
正交分解定理
若 W 是 \(\mathbb R^n\) 的子空间,那么对于所有 \(\mathbf y\in\mathbb R^n\) 都可以唯一表示为 \(\mathbf y=\hat y+\mathscr z\)(其中 \(\hat y\in W,\mathscr z\in W^\bot\))
若 \(\{\mathbf u_1,\dots,\mathbf u_p\}\) 是 W 的任意正交基,那么 \(\hat y=\sum\limits_{i=1}^p\text{proj}_{L_i}\mathbf y,\mathscr z=\mathbf y-\hat y\)
(其中 \(\hat y\) 称为 \(\mathbf y\) 在 W 上的正交投影,记作 \(\text{proj}_W\mathbf y\))
证明详见 p361
补充:\(\mathbf z=\mathbf y-\text{proj}_W\mathbf y\),那么 \(\mathbf z\) 与 W 正交
向量在向量空间上的正交投影
W 是 \(\mathbb R^n\) 的子空间,\(\mathbf x,\mathbf y\in\mathbb R^n\)
\(\mathbf x\) 在 W 上的正交投影:记为 \(\text{proj}_W\mathbf x=\sum\limits_{i=1}^p\text{Proj}_{L_i}\mathbf x\)(\(\{\mathbf u_1,\dots,\mathbf u_p\}\) 是 W 的一组正交基,\(L_i=\text{span}\{\mathbf u_i\}\))
性质:\(\text{proj}_W(\mathbf x+\mathbf y)=\text{proj}_W\mathbf x+\text{proj}_W\mathbf y\)
例子
- 假设 \(\mathbf y=\begin{bmatrix}1\\2\\3\end{bmatrix},\mathbf u_1=\begin{bmatrix}2\\5\\-1\end{bmatrix},\mathbf u_2=\begin{bmatrix}-2\\1\\1\end{bmatrix}\),计算 \(\bf y\) 在 \(W=\text{Span}\{\mathbf u_1,\mathbf u_2\}\) 上的正交分解:
- 设 \(\mathbf y=\text{proj}_W\mathbf y+\mathbf z\)
- \(\text{proj}_W\mathbf y=(\frac{\mathbf y\cdot\mathbf u_1}{\mathbf u_1\cdot\mathbf u_1})\mathbf u_1+(\frac{\mathbf y\cdot\mathbf u_2}{\mathbf u_2\cdot\mathbf u_2})\mathbf u_2=(9/30)\begin{bmatrix}2\\5\\-1\end{bmatrix}+(3/6)\begin{bmatrix}-2\\1\\1\end{bmatrix}=\begin{bmatrix}-2/5\\2\\1/5\end{bmatrix}\)
- \(\mathbf z=\mathbf y-\text{proj}_W\mathbf y=\begin{bmatrix}7/5\\0\\14/5\end{bmatrix}\)
- (可以验证 \(\mathbf z\cdot\mathbf u_1=0,\mathbf z\cdot\mathbf u_2=0\) 是否成立)
正交投影的几何解释
最佳逼近定理
假设 W 是 \(\mathbb R^n\) 的子空间,\(\mathbf y\in\mathbb R^n\),\(\hat y\) 是 \(\mathbf y\) 在 W 上的正交投影(即 \(\hat y=\text{proj}_W\mathbf y\)),那么 \(\hat y\) 是 W 中最接近 \(\mathbf y\) 的点
也就是说,对于所有 \(\mathbf v\in W,\mathbf v\ne\hat y\) 都有 \(\|\mathbf y-\hat y\|<\|\mathbf y-\mathbf v\|\)
其中 \(\hat y\) 称为 W 中元素对 \(\mathbf y\) 的最佳逼近
利用几何画图可证 \((\mathbf y-\hat y)\cdot(\hat y-\mathbf v)=0\),
根据[勾股定理]有 \(\|\mathbf y-\hat y\|^2+\|\hat y-\mathbf v\|^2=\|(\mathbf y-\hat y)+(\hat y-\mathbf v)\|^2=\|\mathbf y-\mathbf v\|^2\),
于是 \(\|\mathbf y-\mathbf v\|\ge\|\mathbf y-\hat y\|\)
\(\blacksquare\)
例子
- 假设 \(\mathbf u_1=\begin{bmatrix}2\\5\\-1\end{bmatrix},\mathbf u_2=\begin{bmatrix}-2\\1\\1\end{bmatrix},\mathbf y=\begin{bmatrix}1\\2\\3\end{bmatrix},W=\text{Span}\{\mathbf u_1,\mathbf u_2\}\),则 W 中离 \(\bf y\) 最近的点是 \(\hat y=(\frac{\mathbf y\cdot\mathbf u_1}{\mathbf u_1\cdot\mathbf u_1})\mathbf u_1+(\frac{\mathbf y\cdot\mathbf u_2}{\mathbf u_2\cdot\mathbf u_2})\mathbf u_2=\begin{bmatrix}-2/5\\2\\1/5\end{bmatrix}\);\(\bf y\) 到 W 中的最近点的距离为 \(\|\mathbf y-\hat y\|=7\sqrt5/5\)
定理
如果 \(\{\mathbf u_1,\dots,\mathbf u_p\}\) 是 \(\mathbb R^n\) 的子空间 W 的单位正交基,那么 \(\text{proj}_W\mathbf y=\sum\limits_{i=1}^p(\mathbf y\cdot\mathbf u_i)\mathbf u_i\)
若 \(U=[\mathbf u_1~~\dots~~\mathbf u_p]\)(\(U\in\mathbb R^{n\times p}\)),则对于所有 \(\mathbf y\in\mathbb R^n\) 都有 \(\text{proj}_W\mathbf y = UU^T\mathbf y\)
(注意:\(U^TU\mathbf x=I_p\mathbf x=\mathbf x\),\(UU^T\mathbf y=\text{proj}_W\mathbf y\))
另外,当 \(U\in\mathbb R^{n\times n}\) 时,\(\mathbf y=UU^T\mathbf y=\text{proj}_W\mathbf y\)
总结
- 正交分解定理:若 W 是 \(\mathbb R^n\) 的一个子空间,那么 \(\forall\mathbf y\in\mathbb R^n,\mathbf y=\hat y+\mathbf z\)(其中 \(\hat y\in\ W,\mathbf z\in W^\bot\) 并且唯一);式中 \(\hat y\) 称为 \(\mathbf y\) 在 W 上的正交投影,记为 \(\text{proj}_W\mathbf y\);若 \(\{\mathbf u_1,\cdots,\mathbf u_p\}\) 是 W 的一个正交基,那么 \(\hat y=\sum\limits_{i=1}^p(\frac{\mathbf y\cdot\mathbf u_i}{\mathbf u_i\cdot\mathbf u_i})\mathbf u_i,\mathbf z=\mathbf y-\hat y\)
- 最佳逼近定理:若 \(\forall\mathbf y\in\mathbb R^n\) 在 \(\mathbb R^n\) 的子空间 W 上的正交分解为 \(\mathbf y=\hat y+\mathbf z\)(\(\hat y\in\ W,\mathbf z\in W^\bot\)),那么 \(\forall\mathbf v\in W,\|\mathbf z\|=\|\mathbf y-\hat y\|\le\|\mathbf y-\mathbf v\|\);其中 \(\hat y\) 称为 W 中元素对 \(\mathbf y\) 的最佳逼近
- 定理:若 \(\{\mathbf u_1,\cdots,\mathbf u_p\}\) 是 \(\mathbb R^n\) 的子空间 W 的单位正交基,那么 \(\forall\mathbf y\in\mathbb R^n,\hat y=\text{proj}_W\mathbf y=\sum\limits_{i=1}^p(\mathbf y\cdot\mathbf u_i)\mathbf u_i\);若 \(U=[\mathbf u_1\cdots\mathbf u_p]\),则 \(\hat y=\text{proj}_W\mathbf y=UU^T\mathbf y\)(注:该定理并没有比[正交分解定理]的计算更优)
一级结论
- 假设 W 是 \(\mathbb R^n\) 的子空间,若 \(\mathbf y\in W\),那么 \(\text{proj}_W\mathbf y=\mathbf y\)
- 假设 W 是 \(\mathbb R^n\) 的子空间,\(\forall\mathbf y\notin W\),根据[正交分解定理]可以构造出非零向量 \(\mathbf y-\hat y\in W^\bot\)
- \(\bf x\) 在某向量的投影 \(\text{proj}_{L(\mathbf u)}\mathbf x\) 对 \(\bf u\) 没有要求,而 \(\bf x\) 在某子空间上的投影 \(\text{proj}_W\mathbf x\) 通常需要借助 W 的正交基才能计算
二级结论
- 若 \(A\in M_{m\times n}\),那么 \(\forall\bf y\in\mathbb R^n\) 可以正交分解为 \(\bf y=u+v\)(\(\mathbf u\in\text{Row}A,\mathbf v\in\text{Nul}A\))
练习
- 假设 \(\mathbf{u}_{1}=\begin{bmatrix}&-7\\&1\\&4\end{bmatrix},\mathbf{u}_{2}=\begin{bmatrix}&-1\\&1\\&-2\end{bmatrix},\mathbf{y}=\begin{bmatrix}&-9\\&1\\&6\end{bmatrix},W=\text{Span}\{\mathbf u_1,\mathbf u_2\}\),计算 \(\text{proj}_W\mathbf y\)
- \(\bf u,v\in\mathbb R^n,c\in\mathbb R\),W 是 \(\mathbb R^n\) 的子空间,证明 \(\mathbf x\mapsto\text{proj}_W\mathbf x\) 是线性变换:\(\text{proj}_W({\bf u+v})=\text{proj}_W\mathbf u+\text{proj}_W\mathbf v\),(2) \(\text{proj}_W({c\bf u})=c\cdot\text{proj}_W\bf u\)
- 判断题
- 若 \(\bf z\) 与 \(\bf u_1,u_2\) 都正交,\(W=\text{Span}\{\bf u_1,u_2\}\),那么 \(\mathbf z\in W^\bot\)(Y)
- W 是任一子空间,\(\forall\mathbf y\in\mathbb R^n\) 有 \(\mathbf y-\text{proj}_W\mathbf y\) 与 W 正交(Y)
- \(\mathbf y\) 在子空间 W 上的正交投影 \(\hat y\) 的计算有时会依赖于 W 正交基的选取(X)
- 如果 \(\bf y\) 属于子空间 W,那么 \(\text{proj}_W\mathbf y=\mathbf y\)(Y)
- 若 \(n\times p\) 矩阵 U 的列是单位正交的,那么 \(\forall\mathbf y\in\mathbb R^n,\text{proj}_{\text{Col}U}\mathbf y=UU^T\mathbf y\)(Y)
- 若 W 是 \(\mathbb R^n\) 的子空间,且 \(\mathbf v\in W,\mathbf v\in W^\bot\),那么 \(\mathbf v=\mathbf 0\)(Y)
- [正交分解定理]中,\(\hat y\) 的每一项在 W 上的正交投影是它本身(Y?)
- 若 \(\mathbf y=\mathbf z_1+\mathbf z_2\),\(\mathbf z_1\in W,\mathbf z_2\in W^\bot\),那么 \(\mathbf z_1=\text{proj}_W\mathbf y\)(Y)
- 子空间 W 中的元素对向量 \(\mathbf y\) 的最佳逼近是 \(\mathbf y-\text{proj}_W\mathbf y\)(X)
- \(n\times p\) 矩阵 U 有单位正交列,那么 \(\forall\mathbf x\in\mathbb R^n,UU^T\mathbf x=\mathbf x\)(X)
- 给定 \(\mathbb R^n\) 上的子空间 W 及其正交基 \(\{\mathbf u_1,\cdots,\mathbf u_p\}\),\(\forall\mathbf y\in\mathbb R^n\)
- 如何计算 \(\bf y\) 的正交分解?
- 如何计算 W 中元素对 \(\bf y\) 的最佳逼近?W 中元素到 \(\bf y\) 的最短距离是?
- \(\mathbf y=\begin{bmatrix}4\\8\\1\end{bmatrix},\mathbf u_1=\begin{bmatrix}2/3\\1/3\\2/3\end{bmatrix},\mathbf u_2=\begin{bmatrix}-2/3\\2/3\\1/3\end{bmatrix},U=[\mathbf u_1~~\mathbf u_2]\)
- 计算 \(U^TU\),\(UU^T\)
- 计算 \(\text{proj}_W\bf y\),\((UU^T)\bf y\)
- W 是 \(\mathbb R^n\) 的子空间,\(\cal B\) 是 W 的一个正交基,\(\cal C\) 是 \(W^\bot\) 的正交基
- 证明:\(\cal B\cup C\) 是 \(\mathbb R^n\) 的正交集
- 证明:\(\cal B\cup C\) 可以张成 \(\mathbb R^n\)
- 证明:\(\dim W+\dim W^\bot=n\)
提示
(1) \(\text{proj}_W\mathbf y=(\frac{\mathbf u_1\cdot\mathbf y}{\mathbf u_1\cdot\mathbf u_1})\mathbf u_1+(\frac{\mathbf u_2\cdot\mathbf y}{\mathbf u_2\cdot\mathbf u_2})\mathbf u_2=(88/66)\mathbf u_1+(-2/6)\mathbf u_2=\begin{bmatrix}-9\\1\\6\end{bmatrix}\)
(2) 假设 \(\{\mathbf b_1,\cdots,\mathbf b_p\}\) 是 W 的一组基
- \(\text{proj}_W({\bf u+v})=\sum\limits_{i=1}^p\left(\frac{\mathbf b_i\cdot(\bf u+v)}{\mathbf b_i\cdot\mathbf b_i}\right)\mathbf b_i=\sum\limits_{i=1}^p\left(\frac{\mathbf b_i\cdot\mathbf u}{\mathbf b_i\cdot\mathbf b_i}+\frac{\mathbf b_i\cdot\mathbf v}{\mathbf b_i\cdot\mathbf b_i}\right)\mathbf b_i\) \(=\sum\limits_{i=1}^p\left(\frac{\mathbf b_i\cdot\mathbf u}{\mathbf b_i\cdot\mathbf b_i}\right)\mathbf b_i+\sum\limits_{i=1}^p\left(\frac{\mathbf b_i\cdot\mathbf v}{\mathbf b_i\cdot\mathbf b_i}\right)\mathbf b_i=\text{proj}_W\mathbf u+\text{proj}_W\mathbf v\)
- \(\text{proj}_W({c\bf u})=\sum\limits_{i=1}^p\left(\frac{\mathbf b_i\cdot(c\bf u)}{\mathbf b_i\cdot\mathbf b_i}\right)\mathbf b_i=\sum\limits_{i=1}^pc\left(\frac{\mathbf b_i\cdot\bf u}{\mathbf b_i\cdot\mathbf b_i}\right)\mathbf b_i=c\cdot\text{proj}_W\bf u\)
(3.8) [正交分解定理]具有唯一性,(3.9) 最佳逼近指的是 \(\text{proj}_W\mathbf y\),(3.10) 根据假设有 \(\text{proj}_{\text{Col}U}\mathbf x=UU^T\mathbf x\),仅当 \(\text{proj}_{\text{Col}U}\mathbf x=\mathbf x\)(即 \(\mathbf x\in\text{Col}U\)),才有 \(UU^T\mathbf x=\mathbf x\)
(4)
- \(\mathbf y=\hat y+\mathbf z\)(其中 \(\hat y=\sum\limits_{i=1}^p(\frac{\mathbf y\cdot\mathbf u_i}{\mathbf u_i\cdot\mathbf u_i})\mathbf u_i,\mathbf z=\mathbf y-\hat y\))
- W 中元素对 \(\bf y\) 的最佳逼近是 \(\hat y=\text{proj}_W\bf y\);W 中元素到 \(\bf y\) 的最短距离是 \(\|\mathbf y-\hat y\|\)
(5)
- \(U^TU=I_2,UU^T=\begin{bmatrix}8/9&-2/9&2/9\\-2/9&5/9&4/9\\2/9&4/9&5/9\end{bmatrix}\)
- 由 U 的各列单位正交,有 \(\text{proj}_W\mathbf y=UU^T\mathbf y=\begin{bmatrix}8/9&-2/9&2/9\\-2/9&5/9&4/9\\2/9&4/9&5/9\end{bmatrix}\begin{bmatrix}4\\8\\1\end{bmatrix}=\begin{bmatrix}2\\4\\5\end{bmatrix}\)
(6)
- \(\forall\mathbf x\in\mathcal B,\mathbf y\in\mathcal C,\mathbf x\cdot\mathbf y=0\) 和 \(\forall\mathbf x\ne\mathbf y\in\mathcal B,\mathbf x\cdot\mathbf y=0\) 以及 \(\forall\mathbf x\ne\mathbf y\in\mathcal C,\mathbf x\cdot\mathbf y=0\),即 \(\forall\mathbf x\ne\mathbf y\in\mathcal B\cup\mathcal C,\mathbf x\cdot\mathbf y=0\),即 \(\cal B\cup C\) 是正交集
4. 格拉姆-施密特方法
格拉姆-施密特方法是对 \(\mathbb R^n\) 中任意非零子空间构造 正交基 或 标准正交基 的简单算法(换句话说,就是从基 \(\{\mathbf x_1,\dots,\mathbf x_p\}\) 中构造出正交基 \(\{\mathbf v_1,\dots,\mathbf v_p\}\))
\(\text{dim} W=2\) 时,W 的基 \(\{\mathbf x_1,\mathbf x_2\}\) 可以构造出正交基 \(\{\mathbf x_1,\mathbf x_2-\text{proj}_{L_1}\mathbf x_2\}\)
格拉姆-施密特方法
设 \(\mathbb R^n\) 的子空间 W 的一个基 \(\{\mathbf x_1,\dots,\mathbf x_p\}\),那么
对于所有 \(i\le p\),有 \(\mathbf v_i=\mathbf x_{i}-\sum\limits_{j=1}^{i-1}\frac{\mathbf x_i\cdot\mathbf v_j}{\mathbf v_j\cdot\mathbf v_j}\mathbf v_j=\mathbf x_i-\text{proj}_{W_{i-1}}\mathbf x_i\)
(注:\(W_i=\text{Span}\{\mathbf v_1,\dots,\mathbf v_i\}\),\(\text{proj}_{W_k}\mathbf x_i=\sum\limits_{j=1}^k\frac{\mathbf x_i\cdot\mathbf v_j}{\mathbf v_j\cdot\mathbf v_j}\mathbf v_j\))
那么 \(\{\mathbf v_1,\dots,\mathbf v_p\}\) 是 W 的一个正交基
并且对于所有 \(i\le p\),有 \(\text{Span}\{\mathbf v_1,\dots,\mathbf v_i\}=\text{Span}\{\mathbf x_1,\dots,\mathbf x_i\}\)
注:计算所得的 \(\mathbf v_i\) 可能有分母,手算时允许进行倍乘消去分母
由于 \(\forall i=1..p,\mathbf v_i\) 是 \(\mathbf x_i\) 在子空间 \(\text{Span}\{\mathbf v_1,\cdots,\mathbf v_{i-1}\}\) 上的正交分量,所以 \(\mathbf v_i\) 正交于 \(\mathbf v_1,\cdots,\mathbf v_{i-1}\)
\(\blacksquare\)
标准正交基
由单位向量构成的正交基
例子
- \(\mathbf x_1=\begin{bmatrix}3\\6\\0\end{bmatrix},\mathbf x_2=\begin{bmatrix}1\\2\\1\end{bmatrix}\),构造 \(W=\{\mathbf x_1,\mathbf x_2\}\) 的一个正交基为 \(\mathcal C=\{\mathbf c_1,\mathbf c_2\}\)(\(\mathbf c_1=\mathbf x_1=\begin{bmatrix}3\\6\\1\end{bmatrix},\mathbf c_2=\mathbf x_2-(\frac{\mathbf x_2\cdot\mathbf c_1}{\mathbf c_1\cdot\mathbf c_1})\mathbf c_1=\begin{bmatrix}1\\2\\0\end{bmatrix}\))
- 上例中的一个单位正交基为 \(\mathcal D=\{\mathbf d_1,\mathbf d_2\}\)(其中 \(\mathbf d_1=\frac{\mathbf c_1}{\|\mathbf c_1\|},\mathbf d_2=\frac{\mathbf c_2}{\|\mathbf c_2\|}\))
矩阵的 QR 分解
如果 \(A\in\mathbb R^{m\times n}\) 的列线性无关,那么 A 可以分解为 \(A=QR\),
而 Q 可以是“格拉姆-施密特” 得到的标准正交基,\(R=Q^TQR=Q^T(QR)=Q^TA\)
其中 \(Q\in\mathbb R^{m\times n}\),其列形成 \(\text{Col}A\) 的一个标准正交基;\(R\in\mathbb R^{n\times n}\) 为上三角可逆矩阵并且对角线上的元素为正数
应用:\(A^TA=(QR)^T(QR)=R^TQ^TQR=R^TR\)
(1) 若存在具有单位正交列的矩阵 Q,使得 \(A=QR\),那么 \(Q^TA=Q^TQR=R\)(其中 \(Q^TQ=I_n\))
(2) 证明 R 是上三角矩阵:
\(A=QR\),蕴涵 \(\forall i=1..n\) 使得 \(\mathbf a_i=Q\mathbf r_i=\sum\limits_{j=1}^nr_{ji}\mathbf q_j\)
假设 Q 的各列由[格拉姆-施密特算法]得到,蕴涵 \(\forall i=1..n,\text{Span}\{\mathbf a_1,\cdots,\mathbf a_i\}=\text{Span}\{\mathbf q_1,\cdots,\mathbf q_i\}\),蕴涵 唯一\(\exists c_1,\cdots,c_i\),使得 \(\mathbf a_i=\sum\limits_{j=1}^ic_j\mathbf q_j\)
于是 \(\forall i=1..n,r_{ji}=\begin{cases}c_j&j\le i\\0&j>i\end{cases}\),即 R 是一个上三角矩阵
(3) 证明 R 可逆并且对角线元素非负:
假设 \(R\mathbf x=\mathbf 0\),于是 \(QR\mathbf x=\mathbf R\mathbf 0=\mathbf 0\),即 \(A\mathbf x=\mathbf 0\)
由于 A 的各列线性无关,于是 \(\mathbf x=\mathbf 0\),蕴涵 R 的列也线性无关
又由 A 是方阵,于是 A 是可逆的
\(\blacksquare\)
例子
- 求 \(A=\begin{bmatrix}1&0&0\\1&1&0\\1&1&1\\1&1&1\end{bmatrix}\) 的一个 QR 分解
- \(\mathbf b_1=\mathbf a_1=\begin{bmatrix}1\\1\\1\\1\end{bmatrix},\mathbf b_2=\mathbf a_2-(\frac{\mathbf a_2\cdot\mathbf b_1}{\mathbf b_1\cdot\mathbf b_1})\mathbf b_1=\begin{bmatrix}-3/4\\1/4\\1/4\\1/4\end{bmatrix},\mathbf b_3=\mathbf a_3-(\frac{\mathbf a_3\cdot\mathbf b_1}{\mathbf b_1\cdot\mathbf b_1})\mathbf b_1-(\frac{\mathbf a_3\cdot\mathbf b_2'}{\mathbf b_2'\cdot\mathbf b_2'})\mathbf b_2'=\begin{bmatrix}0\\-2/3\\1/3\\1/3\end{bmatrix}\)(其中 \(\mathbf b_2'=\begin{bmatrix}-3\\1\\1\\1\end{bmatrix}\))
- 将 \(B=[\mathbf b_1~~\mathbf b_2~~\mathbf b_3]\) 单位化得到 \(Q=\begin{bmatrix}1/3&-3/\sqrt{12}&0\\1/2&1/\sqrt{12}&-2/\sqrt6\\1/2&1/\sqrt{12}&1/\sqrt6\\1/2&1\sqrt{12}&1/\sqrt6\end{bmatrix}\)
- \(R=Q^TA=\begin{bmatrix}2&3/2&1\\0&3/\sqrt{12}&2/\sqrt{12}\\0&0&2\sqrt6\end{bmatrix}\)
- 于是 \(A=QR\)
总结
- 格拉姆-施密特方法:假设 \(\cal B\) 是 \(\mathbb R^n\) 的子空间 W 的一个基,格拉姆-施密特方法是一种变换 \(\mathcal B\mapsto\mathcal C\),使得 \(\cal C\) 是 W 的正交基;具体而言,\(\forall i=1..n\),有 \(\mathbf c_i=\mathbf b_i-\text{proj}_{\text{Span}\{\mathbf c_1,\cdots,\mathbf c_{i-1}\}}\mathbf b_i=\mathbf b_i-\sum\limits_{j=1}^{i-1}(\frac{\mathbf b_i\cdot\mathbf c_j}{\mathbf c_j\cdot\mathbf c_j})\mathbf c_j\)
- QR 分解:若 \(A\in M_{m\times n}\) 的各列线性无关,那么 A 可以分解为 \(A=QR\)(\(Q\in M_{m\times n}\) 为 \(\text{Col}A\) 的一个单位正交基,\(R=Q^TA\);R 是一个上三角可逆矩阵且对角线元素为正数)
一级结论
- [格拉姆-施密特方法]将(长度为 n 的)线性无关集 \(\cal B\) 映射为正交集 \(\cal C\),并且 \(\forall i=1..n,\text{Span}\{\mathbf b_1,\cdots,\mathbf b_i\}=\text{Span}\{\mathbf c_1,\cdots,\mathbf c_i\}\)
- [格拉姆-施密特方法]的计算过程中或计算过后将 \(\forall i=1..n,\mathbf c_i\) 单位化,可以得到单位正交基或标准正交基 \(\cal C'\);另外,在计算过程中将 \(\mathbf c_i\) 去分母总是可以优化计算
- 将 \(A\in M_{m\times n}\) 进行 QR 分解为 \(A=QR\),一种分块形式为 \([A_1~~A_2]=\begin{bmatrix}Q_1~~Q_2\end{bmatrix}\begin{bmatrix}R_{11}&R_{12}\\\mathbf 0&R_{22}\end{bmatrix}=[Q_1R_{11}~~Q_1R_{12}+Q_2R_{22}]\)(其中 \(R_{11}\in M_{p\times p}\))
练习
- \(\mathbf x_1=\begin{bmatrix}1\\1\\1\end{bmatrix},\mathbf x_2=\begin{bmatrix}1/3\\1/3\\-2/3\end{bmatrix}\) 构造 \(W=\text{Span}\{\mathbf x_1,\mathbf x_2\}\) 的一个标准正交基
- 证明:假设 \(A=QR\),其中 Q 是具有正交列的 \(m\times n\) 矩阵,R 是 \(n\times n\) 矩阵,若 A 的列向量是线性相关的,则 R 是奇异矩阵(非可逆矩阵)
- 判断题:(假设提到的向量和子空间都在 \(\mathbb R^n\) 之下)
- 若 \(\{\mathbf v_1,\mathbf v_2,\mathbf v_3\}\) 是 W 的正交基,那么用 c 去乘 \(\mathbf v_3\) 可得新的正交基 \(\{\mathbf v_1,\mathbf v_2,c\mathbf v_3\}\)(X)
- [格拉姆-施密特方法]将线性无关集 \(\cal U\) 转化为正交集 \(\cal V\),蕴涵 \(\forall i=1..n,\text{Span}\{\mathbf u_1,\cdots,\mathbf u_i\}=\text{Span}\{\mathbf v_1,\cdots,\mathbf v_i\}\)(Y)
- 若 \(A=QR\),且 Q 有单位正交列,那么 \(R=Q^TA\)(Y)
- 假设 \(W=\text{Span}\{\mathbf x_1,\mathbf x_2,\mathbf x_3\}\),且 \(\{\mathbf x_1,\mathbf x_2,\mathbf x_3\}\) 是线性无关集,若 \(S=\{\mathbf v_1,\mathbf v_2,\mathbf v_3\}\) 是 W 的一个正交集,那么 S 是 W 的一个基(X)
- \(\mathbf x\not\in W\),那么 \(\mathbf x-\text{proj}_W\mathbf x\ne\mathbf 0\)(Y)
- 在一个 QR 分解 \(A=QR\) 中,Q 的列构成 A 的列子空间的标准正交基(Y)
- 如何计算:(1) 线性无关集 \(\cal B\) 对应的正交集 \(\cal C\),(2) 列线性无关矩阵 A(A 的列满秩)对应的单位正交矩阵,(3) 列满秩矩阵 A 的 QR 分解
- 证明:假设 \(A=QR\),R 可逆,那么 A 和 Q 有相同的列空间,即 \(\text{Col}A=\text{Col}Q\)
提示
(1) 设 \(\mathcal U=\{\mathbf u_1~~\mathbf u_2\}\) 是一个临时向量基
\(\mathbf u_1=\mathbf x_1=\begin{bmatrix}1\\1\\1\end{bmatrix}\)
\(\mathbf u_2=\mathbf x_2-(\frac{\mathbf x_2\cdot\mathbf u_1}{\mathbf u_1\cdot\mathbf u_1})\mathbf u_1=\begin{bmatrix}1/3\\1/3\\-2/3\end{bmatrix}\)
使用[格拉姆-施密特方法]将 \(\cal U\) 单位正交化得到 \(\left\{\begin{bmatrix}1/3\\1/3\\1/3\end{bmatrix},\begin{bmatrix}1/\sqrt6\\1/\sqrt6\\-2/\sqrt6\end{bmatrix}\right\}\)
(2)
A 的列线性相关,蕴涵 \(\exists\mathbf x\ne\mathbf 0,A\mathbf x=\mathbf 0\),即 \((QR)\mathbf x=\mathbf 0\),蕴涵 \(\|QR\mathbf x\|=\|\mathbf 0\|\)
根据[6.2结论6]和 Q 是单位正交矩阵,有 \(\|R\mathbf x\|=\|QR\mathbf x\|=\|\mathbf 0\|\),根据[6.1总结2],有 \(R\mathbf x=\mathbf 0\)
而 \(\mathbf x\ne\mathbf 0\) ,于是 R 的列线性相关,又由[可逆矩阵定理]和 R 是方阵,有 R 是奇异的
(3.4) 分析:假设蕴涵着 \(W=\mathbb R^3\),而不包含 S 是否张成 \(\mathbb R^3\) 或 S 是否线性无关的信息(特别地,若 \(S=\{\mathbf 0,\mathbf 0,\mathbf 0\}\),那么 S 不是 W 的基,与假设矛盾)
(5)
- \(\forall\mathbf y\in\text{Col}A,\exists\mathbf x,\mathbf y=A\mathbf x=Q(R\mathbf x)\),蕴涵 \(\mathbf y\in\text{Col}Q\),即 \(\text{Col}A\subset\text{Col}Q\)
- \(\forall\mathbf y\in\text{Col}Q,\exists\mathbf x,\mathbf y=Q\mathbf x=(AR^{-1})\mathbf x=A(R^{-1}\mathbf x)\),蕴涵 \(\mathbf y\in\text{Col}A\),即 \(\text{Col}Q\subset\text{Col}A\)
- 于是 \(\text{Col}A=\text{Col}Q\)
5. 最小二乘问题
解一个矩形方程组 \(A\mathbf x=\mathbf b\),方程组无解时,最好的方法是寻找 \(\mathbf x\) 使得 \(A\mathbf x\) 尽可能接近 \(\mathbf b\)
考虑 \(A\mathbf x\) 为 \(\mathbf b\) 的一个近似,而一般的最小二乘问题就是找出使 \(\|\mathbf b-A\mathbf x\|\) 尽可能小的 \(\mathbf x\)
“最小二乘”来源于这样的事实,即 \(\|\mathbf b-A\mathbf x\|\) 是平方和的平方根
线性方程组的最小二乘解
假设 \(A\in\mathbb R^{m\times n}, \mathbf b\in\mathbb R^m\),则 \(A\mathbf x=\mathbf b\) 的最小二乘解是 \(\hat x\in\mathbb R^n\),使得:
对于所有 \(\mathbf x\in\mathbb R^n\),都有 \(\|\mathbf b-A\hat x\|\le\|\mathbf b-A\mathbf x\|\)
根据[最佳逼近定理],存在 \(\hat b=\text{proj}_{\text{Col}~A}~\mathbf b\) 使其距离“最接近” \(\mathbf b\)(\(\hat b\in\text{Col}A\))
又 \(A\mathbf x\in\text{Col}A\),所以 \(A\mathbf x=\hat b\) 是相容的(其解为 \(\mathbf x=\hat x\),称为 \(A\mathbf x=\mathbf b\) 的最小二乘解)
根据[正交分解定理],\(\mathbf b-\hat b\) 正交于 \(\text{Col}A\),进而正交于 A 的各列,
即对于所有 \(i\le n\),\(a_i\cdot (\mathbf b-\hat b)=0\),即 \(a_i^T(\mathbf b-\hat b)=0\),
那么 \(A^T(\mathbf b-\hat b)=\mathbf 0\),整理得 \(A^T\mathbf b=A^T\hat b=A^TA\mathbf x\)(称为 \(A\mathbf x=\mathbf b\) 的法方程)
一般的最小二乘问题的解
方程 \(A\mathbf x=\mathbf b\) 的最小二乘解集 等于:
其 法方程 \(A^TA\mathbf x=A^T\mathbf b\) 的非空解集
问:等价于 \(A\mathbf x=\hat b=\text{proj}_{\text{Col}~A}~\mathbf b\) ?
注:最小二乘解可以解释为满足 \(\mathbf b=\hat b+(\mathbf b-\hat b)\approx\hat b=A\hat x\) 的最优近似解 \(\mathbf x=\hat x\);\(\|\mathbf b-\hat b\|\) 称为 最小二乘误差
注2:\(A^TA\) 是一个对称的方阵,该矩阵有时不可逆
注3:最小二乘解问题的法方程可能是病态的,即 \(A^TA\) 的计算过程中出现的误差有时会导致 \(\hat x\) 的误差变大
(1) 假设有方程 \(A\mathbf x=\mathbf b\)
\(\mathbf b\) 在 \(\text{Col}A\) 上的正交分解为 \(\mathbf b=\hat b+\bar b\)(\(\hat b=\text{proj}_{\text{Col}A}\mathbf b\in\text{Col}A\),\(\mathbf b-\hat b\in(\text{Col}A)^\bot\))
于是 \(\exists\hat x\in\mathbb R^n,A\hat x=\hat b\)
并且 \(\forall\mathbf v\in\mathbb R^n,\|\mathbf b-\hat b\|\le\|\mathbf b-\mathbf v\|\),蕴涵 \(\forall\mathbf v\in\text{Col}A,\|\mathbf b-\hat b\|\le\|\mathbf b-\mathbf v\|\)
\(\forall\mathbf x\in\mathbb R^n,\|\mathbf b-A\hat x\|\le\|\mathbf b-A\mathbf x\|\)
也就是说 \(\hat b\) 对应的 \(\hat x\)(可能有多解)是 \(A\mathbf x=\mathbf b\) 的最小二乘解
由 \((\text{Col}A)^\bot=\text{Nul}A^T\),有 \(\mathbf b-\hat b\in\text{Nul}A^T\),蕴涵 \(A^T(\mathbf b-\hat b)=\mathbf 0\),
蕴涵 \(A^T\mathbf b=A^T\hat b=A^TA\hat x\),即方程 \(A\mathbf x=\mathbf b\) 的最小二乘解 \(\hat x\) 满足方程 \(A^TA\hat x=A^T\mathbf b\),后者为前者的法方程
(2) 假设有方程 \(A^TA\mathbf x=A^T\mathbf b\),即 \(A^T(A\mathbf x-\mathbf b)=\mathbf 0\)
蕴涵 \(A\mathbf x-\mathbf b\in(\text{Col}A)^\bot\),蕴涵 \(\mathbf b-A\mathbf x\in(\text{Col}A)^\bot\)
又因 \(A\mathbf x\in\text{Col}A\),于是 \(\mathbf b=A\mathbf x+(\mathbf b-A\mathbf x)\) 是 \(\mathbf b\) 在 \(\text{Col}A\) 上的正交分解,由 (1) 有 \(\mathbf x\) 也是 \(A\mathbf x=\mathbf 0\) 的最小二乘解
综上,\(A\mathbf x=\mathbf b\) 的最小二乘解集等于其法方程 \(A^TA\mathbf x=A^T\mathbf b\) 的解集
\(\blacksquare\)
例子
- 假设 \(A=\begin{bmatrix}4&0\\0&2\\1&1\end{bmatrix},\mathbf b=\begin{bmatrix}2\\0\\11\end{bmatrix}\),计算方程 \(A\mathbf x=\mathbf 0\) 的最小二乘解:\(A^TA\mathbf x=A^T\mathbf b\),等价于 \(\begin{bmatrix}17&1\\1&5\end{bmatrix}\mathbf x=\begin{bmatrix}19\\11\end{bmatrix}\),而 \(\begin{bmatrix}17&1&19\\1&5&11\end{bmatrix}\sim\begin{bmatrix}1&0&1\\0&1&2\end{bmatrix}\),于是 \(A\mathbf x=\mathbf 0\) 的最小二乘解为 \(\hat x=\begin{bmatrix}1\\2\end{bmatrix}\)
定理
设 \(A\in\mathbb R^{m\times n}\),那么下面的条件等价:
- 对于所有 \(\mathbf b\in\mathbb R^m\),\(A\mathbf x=\mathbf b\) 有唯一最小二乘解 \(\hat x=(A^TA)^{-1}A^T\mathbf b\)
- A 的列线性无关
- 矩阵 \(A^TA\) 可逆
(1) 假设 \(A^TA\) 可逆
\(\blacksquare\)
下面讨论 A 的列向量正交时,如何求出 \(A\mathbf x=\mathbf b\) 的最小二乘解;这类矩阵通常出现在线性回归问题中
对于 \(A\mathbf x=\mathbf b\) 的法方程 \(A^TA\mathbf x=A^T\mathbf b\)
若通过对 A 进行 QR 分解有 \(A=QR\),
那么 \((QR)^T(QR)\mathbf x=(QR)^T\mathbf b\),即 \(R^TQ^TQR\mathbf x=R^TQ^T\mathbf b\),进而 \(\mathbf x=R^{-1}Q^T\mathbf b\)
(注:Q 的列组合成单位正交基,所以 \(Q^TQ=I\);R 是可逆的,所以 \(R^T\) 满足消去律)
最小二乘问题的解(QR 分解)
\(A\in\mathbb R^{m\times n}\) 具有线性无关的列,对 A 进行 QR 分解,
那么对于 \(\mathbf b\in\mathbb R^m\),\(A\mathbf x=\mathbf b\) 有唯一的最小二乘解,即 \(\mathbf x=R^{-1}Q^T\mathbf b\)
等价于求解线性方程组 \(\mathbf x=R^{-1}Q^T\mathbf b\)
注:若 \(\mathbf b\) 与 \(\text{Col}A\) 正交,那么上述方程等价于 \(A\mathbf x=\mathbf 0\)
例子
- \(A=\begin{bmatrix}1&3&5\\1&1&0\\1&1&2\\1&3&3\end{bmatrix},\mathbf{b}=\begin{bmatrix}3\\5\\7\\-3\end{bmatrix}\),计算 \(A\mathbf x=\mathbf 0\) 的最小二乘解:
- QR 分解:\(A=QR=\begin{bmatrix}1/2&1/2&1/2\\1/2&-1/2&-1/2\\1/2&-1/2&1/2\\1/2&1/2&-1/2\end{bmatrix}\begin{bmatrix}2&4&5\\0&2&3\\0&0&2\end{bmatrix}\)
- \([R~~Q^T\mathbf b]=\begin{bmatrix}2&4&5&6\\0&2&3&-6\\0&0&2&4\end{bmatrix}\sim\begin{bmatrix}1&0&0&10\\0&1&0&-6\\0&0&1&2\end{bmatrix}\),即 \(\hat{x}=\begin{bmatrix}10\\-6\\2\end{bmatrix}\)
总结
- 最小二乘解,最小二乘误差:假设有矩阵方程 \(A\mathbf x=\mathbf b\),若 \(\exists\hat x\in\mathbb R^n,\forall\mathbf x\in\mathbb R^n\),使得 \(\|\mathbf b-A\hat x\|\le\|\mathbf b-A\mathbf x\|\),那么 \(\hat x\) 称为该矩阵方程的最小二乘解,\(\mathbf b-\hat b\) 称为该方程的最小二乘误差
- 最小二乘解定理:方程 \(A\mathbf x=\mathbf b\) 的最小二乘解集为 \(A\mathbf x=\text{proj}_{\text{Col}A}\mathbf b\) 或 \(A^TA\mathbf x=A^T\mathbf b\) 的解集
- 矩阵定理(补充):假设 \(A\in M_{m\times n}\),那么以下命题等价:\(\begin{cases}\forall\mathbf b\in\mathbb R^m,A\mathbf x=\mathbf b有唯一的最小二乘解\hat x=(A^TA)^{-1}A^T\mathbf b\\A的列线性无关\\A^TA可逆\end{cases}\)
一级结论
- 若矩阵 A 的各列线性无关,那么 \(A\mathbf x=\mathbf b\) 的最小二乘解为 \(\hat x=(A^TA)^{-1}A^T\mathbf b\),\(\bf b\) 在 \(\text{Col}A\) 上的投影为 \(\hat b=A\hat x=A(A^TA)^{-1}A^T\mathbf b\)(其中 \(A(A^TA)^{-1}A^T\) 称为帽矩阵)
- 列线性无关矩阵 A 的 QR 分解为 \(A=QR\),那么 \(A\mathbf x=\mathbf b\) 的最小二乘解为 \(\hat x=R^{-1}Q^T\mathbf b\)(可以通过 \([R~~Q^T\mathbf b]\sim[I_n~~R^{-1}Q^T\mathbf b]\) 来优化计算)
- 若矩阵 A 有单位正交列,那么 \(A\mathbf x=\mathbf b\) 的最小二乘解为 \(\hat x=A^T\mathbf b\),\(\bf b\) 在 \(\text{Col}A\) 上的投影为 \(\hat b=AA^T\mathbf b\)
二级结论
- 方程 \(A\mathbf x=\mathbf b\) 的一个最小二乘解为
练习
- \(A=\begin{bmatrix}1&-3&-3\\1&5&1\\1&7&2\end{bmatrix},\mathbf b=\begin{bmatrix}5\\-3\\-5\end{bmatrix}\),计算 \(A\mathbf x=\mathbf b\) 的一个最小二乘解,及其最小二乘误差
- \(\bf b\) 与 A 的列正交,\(A\mathbf x=\mathbf b\) 的最小二乘解有什么性质?
- 判断题
- 一般最小二乘问题是求出 \(\bf x\) 使得 \(A\mathbf x\) 尽可能接近 \(\bf b\)(Y)
- 方程 \(A\mathbf x=\mathbf b\) 的最小二乘解是满足方程 \(A\hat x=\hat b\) 的向量 \(\hat x\),其中 \(\hat b\) 是 \(\bf b\) 在 \(\text{Col}A\) 上的正交投影(Y)
- 方程 \(A\mathbf x=\mathbf b\) 的最小二乘解是向量 \(\hat x\),并且 \(\mathbf x\in\mathbb R^n,\|\mathbf b-A\mathbf x\|\le\|\mathbf b-A\hat x\|\)(X)
- 方程 \(A^TA\mathbf x=A^T\mathbf b\) 的任意解是方程 \(A\mathbf x=\mathbf b\) 的最小二乘解(Y)
- 若 A 的列线性无关,那么方程 \(A\mathbf x=\mathbf b\) 只有一个最小二乘解(Y)
- 若 \(\mathbf b\in\text{Col}A\),那么方程 \(A\mathbf x=\mathbf b\) 的每个解都是最小二乘解(Y)
- 方程 \(A\mathbf x=\mathbf b\) 的最小二乘解是 \(\text{Col}A\) 中最接近 \(\bf b\) 的点(X)
- 方程 \(A\mathbf x=\mathbf b\) 的最小二乘解是一系列的权,当它们作用在 A 的列时,产生 \(\bf b\) 在 \(\text{Col}A\) 上的正交投影(Y)
- 若 \(\hat x\) 是 \(A\mathbf x=\mathbf b\) 的一个最小二乘解,那么 \(\hat x=(A^TA)^{-1}A^T\mathbf b\)(X)
- 法方程计算最小二乘解的方法总是可靠的(X?)
- 如果 A 有一个 QR 分解,如 \(A=QR\),那么求 \(A\mathbf x=\mathbf b\) 最小二乘解的最好方法是计算 \(\hat x=R^{-1}Q^T\mathbf b\)(Y)
- 假设有方程 \(A\mathbf x=\mathbf b\),(1) 该方程的最小二乘解的一般解法是?(2) 若 A 列满秩,那么最小二乘解有哪几种表示?(3) 最小二乘误差如何计算?
- \(A=\begin{bmatrix}3&4\\-2&1\\3&4\end{bmatrix},\mathbf{b}=\begin{bmatrix}11\\-9\\5\end{bmatrix},\mathbf{u}=\begin{bmatrix}5\\-1\end{bmatrix},\mathbf{v}=\begin{bmatrix}5\\-2\end{bmatrix}\),\(\bf u\) 是否为 \(A\mathbf x=\mathbf b\) 的最小二乘解?
- 假设 A 有线性无关列,\(\bf b\) 已知,若 \(\exists\mathbf u\ne\mathbf v\in\mathbb R^n,\|\mathbf b-A\mathbf u\|=\|\mathbf b-A\mathbf v\|\),那么 \(\bf u,v\) 是否为 \(A\mathbf x=\mathbf b\) 的最小二乘解
- 假设 \(A\in M_{m\times n}\)
- 证明:\(\text{Nul}A^TA=\text{Nul}A\)
- 证明:\(A^TA\) 可逆,当且仅当 A 的列线性无关
- 证明:\(\text{rank}A^TA=\text{rank}A\)
提示
(1) \(A^TA\mathbf x=A^T\mathbf b\),等价于 \(\begin{bmatrix}3&9&0\\9&83&28\\0&28&14\end{bmatrix}\mathbf x=\begin{bmatrix}-5\\-65\\-28\end{bmatrix}\)
而 \(\begin{bmatrix}3&9&0&-5\\9&83&28&-65\\0&28&14&-28\end{bmatrix}\sim\begin{bmatrix}1&0&-3/2&2\\0&1&1/2&-1\\0&0&0&0\end{bmatrix}\)
于是 \(\hat x=t\begin{bmatrix}3/2\\-1/2\\1\end{bmatrix}+\begin{bmatrix}2\\-1\\-0\end{bmatrix}\)(\(t\in\mathbb R\))是最小二乘解
一个特解是 \(\hat x=\begin{bmatrix}2\\-1\\-0\end{bmatrix}\),最小二乘误差为 $\mathbf b-$
(2) \(\mathbf b\) 在 \(\text{Col}A\) 上的(唯一)正交分解为 \(\mathbf b=\hat b+(\mathbf b-\hat b)\)(\(\mathbf b-\hat b\in(\text{Col}A)^\bot\))
为 \(\mathbf b\in(\text{Col}A)^\bot\),于是 \(\mathbf b-\hat b=\mathbf b\),即 \(\hat b=\mathbf 0\)
(5) \(A\mathbf u=\begin{bmatrix}11\\-11\\11\end{bmatrix},A\mathbf v=\begin{bmatrix}7\\-12\\7\end{bmatrix}\)
\(\|\mathbf b-A\mathbf u\|=\sqrt{40},\|\mathbf b-A\mathbf v\|=\sqrt{29}\)
而 \(\|\mathbf b-A\mathbf u\|>\|\mathbf b-A\mathbf v\|\),于是 \(\bf u\) 不可能是 \(A\bf x=b\) 的最小二乘解
(6) 假设 \(\bf u,v\) 均是方程 \(A\mathbf x=\mathbf b\) 的最小二乘解,
由 A 的列线性无关,蕴涵方程有唯一的最小二乘解,与假设矛盾,所以 \(\bf u,v\) 都不是最小二乘解
(7.1)
- \(\forall\mathbf x\in\text{Nul}A,A\mathbf x=\mathbf 0,A^T(A\mathbf x)=A^T\mathbf 0=\mathbf 0\),蕴涵 \((A^TA)\mathbf x=\mathbf 0\),蕴涵 \(\mathbf x\in\text{Nul}(A^TA)\),于是 \(\text{Nul}A\subset\mathbf x\in\text{Nul}(A^TA)\)
- \(\forall\mathbf x\in\text{Nul}A^TA,(A^TA)\mathbf x=\mathbf 0\),蕴涵 \(\mathbf x^TA^TA\mathbf x=\mathbf x^T\mathbf 0=\mathbf 0\),即 \((A\mathbf x)^TA\mathbf x=\mathbf 0\),即 \((A\mathbf x)\cdot(A\mathbf x)=\mathbf 0\),即 \(A\mathbf x=\mathbf 0\),蕴涵 \(\mathbf x\in\text{Nul}A\),于是 \(\text{Nul}(A^TA)\subset\mathbf x\in\text{Nul}A\)
- 于是 \(\text{Nul}(A^TA)=\mathbf x\in\text{Nul}A\)
6. 线性模型中的应用
以下讨论使用在工程中常见的统计分析记号,即用 \(X\mathbf \beta=\mathbf y\),称 X 为设计矩阵,\(\beta\) 为参数向量,\(\mathbf y\) 为观测向量
最小二乘直线
对于实验数据给出的数据点集 \((x_1,y_1),\dots,(x_n,y_n)\),构造出尽可能“接近”实验数据的直线 \(\hat y=\beta_0+\beta_1x\),使得比如 \(y_i-\hat y_i\) 的平方和 \(\sum\limits_{i=1}^n(y_i-\hat y_i)^2\) 最小
(注:\(\hat y=\beta_0+\beta_1x\) 称为 y 对 x 的回归直线,\(\beta_0,\beta_1\) 称为回归系数;\(y_i\) 称为观测值,\(\hat y_i=\beta_0+\beta_1x_i\) 称为预测值,\(y_i-\hat y_i\) 称为余差)
假设预测值与观测值均相等,那么可以得到方程组 \(X\beta=\mathbf y\),即 \(\begin{bmatrix}1&x_1\\\vdots&\vdots\\1&x_n\end{bmatrix}\begin{bmatrix}\beta_0\\\beta_1\end{bmatrix}=\begin{bmatrix}y_1\\\vdots\\y_n\end{bmatrix}\)
若选择 平方和 作为“距离”的衡量标准,由于 \(\|\mathbf y-\hat y\|^2=\sum\limits_{i=1}^n(y_i-\hat y_i)^2\),那么方程的最优拟合直线由 最小二乘算法 给出,即 \(X^TX\hat\beta=X^T\mathbf y\);此时 \(\hat y=\beta_0+\beta_1x\) 称为最小二乘直线
平均偏差形式
一般线性模型
引入 余差向量 \(\epsilon\)(\(\epsilon=\mathbf y-X\beta\))得到方程 \(\mathbf y=X\beta+\epsilon\),该方程称为 线性模型
一旦 X 和 \(\mathbf y\) 被确定,使 \(\epsilon\) 最小化相当于找出 \(X\beta=\mathbf y\) 的最小二乘解,该解由 \(X^TX\beta=X^T\mathbf y\) 给出
一般的最小二乘拟合
如果数据点集 \((x_1,y_1),\dots,(x_m,y_m)\) 的拟合模型为 \(y=\sum\limits_{j=1}^nf_j(x)\beta_j\)
由于 \(y=\sum\limits_{j=1}^nf_j(x)\beta_j=\mathbf f(x)\cdot \beta=\mathbf f^T(x)\beta\),那么 \(y_i=\mathbf f^T(x_i)\beta\),构造 \(X_{ij}=\mathbf f_j^T(x_i)\)
假设观测值等于 预测值与余差之和,则有 \(X\beta=\mathbf y+\mathbf\epsilon\)
(注:\(\mathbf f(x)=(f_1(x),\dots,f_n(x))\),参数向量 \(\beta=(\beta_1,\dots,\beta_n)\),观测向量 \(\mathbf y=(y_1,\dots,y_k)\),余差向量 \(\mathbf\epsilon=(\epsilon_1,\dots,\epsilon_n)\);X 为设计矩阵)
若以 \(y_i-\hat y_i\) 的平方和 \(\sum\limits_{i=1}^m(y_i-\hat y_i)^2\) 作为“距离”的模型,那么 \(X\beta=\mathbf y\) 最小二乘解 \(\hat\beta\) 为该模型下的最优拟合
多重回归
给定数据点集 \((\mathbf x_1,y_1),\dots,(\mathbf x_m,y_m)\),其拟合模型为 \(y=\sum\limits_{j=1}^nf_j(\mathbf x)\beta_j\)(其中 \(\mathbf x_i=(x_{ik},\dots,x_{ik})\in\mathbb R^k\))
假设观测值等于 预测值与余差之和,则有 \(X\beta=\mathbf y+\mathbf\epsilon\)
(其中 \(X_{ij}=\mathbf f_j^T(\mathbf x_i)\))
若以 \(y_i-\hat y_i\) 的平方和 \(\sum\limits_{i=1}^m(y_i-\hat y_i)^2\) 作为“距离”的模型,那么 \(X\beta=\mathbf y\) 最小二乘解 \(\hat\beta\) 为该模型下的最优拟合
总结
- 最小二乘直线拟合:给定数据集 \(\forall i=1..n,(x_i,y_i)\),设有两个未知参数 \(\beta_0,\beta_1\) 并构造方程组 \(\forall i=1..n,\beta_0+\beta_1x_i=y_i\),即矩阵方程 \(X\beta=\mathbf y\) 或 \(\begin{bmatrix}1&x_1\\\vdots&\vdots\\1&x_n\end{bmatrix}\begin{bmatrix}\beta_0\\\beta_1\end{bmatrix}=\begin{bmatrix}y_1\\\vdots\\y_n\end{bmatrix}\);若矩阵方程 \(X\beta=\mathbf y\) 的最小二乘解为 \(\hat\beta\),那么数据集的最小二乘直线为 \(\hat y=\hat\beta_0+\hat\beta_1 x\)(满足 \(\forall\mathbf v\in\mathbb R^n,\sum\limits_{i=1}^n(y_i-\hat y_i)^2=\|\mathbf y-\hat y\|^2\le\|\mathbf y-\mathbf v\|^2\))
- 最小二乘曲线拟合:\(\forall i=1..m,(x_i,y_i)\),设有 n 个未知参数 \(\beta_1,\cdots,\beta_n\) 和 n 个一元函数 \(f_1,\cdots,f_n\),构造方程组 \(\forall i=1..m,\sum\limits_{j=1}^n\beta_jf_j(x_i)=y_i\),即矩阵方程 \(\begin{bmatrix}f_1(x_1)&\cdots&f_n(x_1)\\\vdots&&\vdots\\f_1(x_m)&\cdots&f_n(x_m)\end{bmatrix}\begin{bmatrix}\beta_1\\\vdots\\\beta_n\end{bmatrix}=\begin{bmatrix}y_1\\\vdots\\y_m\end{bmatrix}\);若矩阵方程 \(X\beta=\mathbf y\) 的最小二乘解为 \(\hat\beta\),那么数据集的最小二乘曲线为 \(\hat y=\sum\limits_{j=1}^n\hat\beta_jf_j(x)\)
- 最小二乘多元函数拟合:(数据集中的每个元素为 \(k+1\) 元向量,即 k 个输入数据,1 个输出数据;并且每个假设的函数都是 \(\mathbb R^k\to\mathbb R\) 映射)
- 最小二乘向量场拟合:(数据集中每个元素为 \(a+b\) 元向量,即 a 个输入数据,b 个输出数据;并且每个假设的函数都是 \(\mathbb R^a\to\mathbb R^m\) 映射)
练习
- 某产品的月销售额受几届波动影响,近似销售数据的曲线形如 \(y=\beta_0+\beta_1 x+\beta_2\sin(2\pi x/12)\)(x 是按月统计的时间,\(\beta_0+\beta_1 x\) 给出基本销售趋势,正弦想反映季节对销售的影响),给出上述线性模型对应的最小二乘拟合的设计矩阵和参数向量
- 用直线模型 \(y=\beta_0+\beta_1 x\) 拟合 \(\{(0,1),(1,1),(2,2),(3,2)\}\)
- 用曲线模型 \(y=\beta_1+\beta_2 x^2\) 拟合 \(\{(1,1.8),(2,2.7),(3,3.4),(4,3.8),(5,3.9)\}\)
- 使用 \(y=\beta_1 x+\beta_2 x^2+\beta_3 x^3\) 拟合 \(\{(4,1.58),(6,2.08),(8,2.5),(10,2.8),(12,3.1),(14,3.4),(16,3.8),(18,4.32)\}\)
- 使用 \(y=\beta_1\cos x+\beta_2\sin x\) 拟合 \(\{(1,7.9),(2,5.4),(3,-0.9)\}\)
- 使用 \(y=\beta_1 e^{-0.02t}+\beta_2 e^{-0.07t}\) 拟合 \(\{(10,21.34),(11,20.68),(12,20.05),(14,18.87),(15,18.30)\}\)
提示
(1) 设计矩阵为 \(X=\begin{bmatrix}1&x_1&\sin(2\pi x_1/12)\\\vdots&\vdots&\vdots\\1&x_n&\sin(2\pi x_n/12)\end{bmatrix}\)
参数向量为 \(\beta=\begin{bmatrix}\beta_0\\\beta_1\\\beta_2\end{bmatrix}\)
(2) 设计矩阵和参数向量分别为 \(X=\begin{bmatrix}1&0\\1&1\\1&2\\1&3\end{bmatrix},\mathbf y=\begin{bmatrix}1\\1\\2\\2\end{bmatrix}\)
\(X^TX=\begin{bmatrix}4&6\\6&14\end{bmatrix},X^T\mathbf y=\begin{bmatrix}6\\11\end{bmatrix}\)
由于 \(\begin{bmatrix}4&6&6\\6&14&11\end{bmatrix}\sim\begin{bmatrix}1&0&9/10\\0&1&2/5\end{bmatrix}\),所以最小二乘解为 \(\beta=\begin{bmatrix}9/10\\2/5\end{bmatrix}\),
也就是说最小二乘直线方程为 \(\hat y=(9/10)+(2/5)x\)
(3) \(X=\begin{bmatrix}1&1\\2&4\\3&9\\4&16\\5&25\end{bmatrix},\mathbf y=\begin{bmatrix}1.8\\2.7\\3.4\\3.8\\3.9\end{bmatrix}\)
\([X^TX~~X^T\mathbf y]=\begin{bmatrix}55&255&52.1\\255&979&201.5\end{bmatrix}\sim\begin{bmatrix}1&0&0.0336852\\0&1&0.197048\end{bmatrix}\)(存疑)
7. 内积空间
内积
对于所有 \(\mathbf u,\mathbf v,\mathbf w\in V\),\(c\in\mathbb R\),存在一个实函数 \(\langle\mathbf u,\mathbf v\rangle\) 满足如下公理:
- \(\langle\mathbf u,\mathbf v\rangle=\langle\mathbf v,\mathbf u\rangle\)
- \(\langle\mathbf u+\mathbf v,\mathbf w\rangle=\langle\mathbf u,\mathbf w\rangle+\langle\mathbf v,\mathbf w\rangle\)
- \(c\langle\mathbf u,\mathbf v\rangle=\langle c\mathbf u,\mathbf v\rangle\)
- \(\langle\mathbf u,\mathbf u\rangle\ge0\);\(\langle\mathbf u,\mathbf u\rangle=0\),当且仅当 \(\mathbf u=\mathbf 0\)
一个赋予上面内积的向量空间称为向量空间
例1:\(\langle\mathbf u,\mathbf v\rangle=\sum\limits_{i=1}^nc_iu_iv_i\)(\(c_i\ge0\);c 不全为 0)定义了一个内积
例2:对于 \(p,q\in\mathbb P_n\)(多项式空间),\(\langle p,q\rangle=\sum\limits_{i=0}^np(c_i)q(c_i)\)也满足内积公理
例子
- \(\mathbb R^2\) 上定义参数为 \(c_1=4,c_2=5\) 的内积,即 \(\forall\mathbf u,\mathbf v\in\mathbb R^2\),有 \(\langle\mathbf u,\mathbf v\rangle=4u_1v_1+5u_2v_2\)(可以证明,该向量空间为内积空间,并且该空间称为欧式空间)
- \(\mathbb P_n\) 上定义参数为 \(t_0,t_1,\cdots,t_n\) 的内积,即:\(\forall p,q\in\mathbb P_n\),有 \(\langle p,q\rangle=\sum\limits_{i=0}^np(t_i)q(t_i)\)(可以证明,该向量空间为内积空间)
- \(\mathbb P_2\) 上定义参数为 \(t_0=0,t_1=1/2,t_2=1\) 的内积,那么 \(\langle 12t^2,2t-1\rangle=(0)(-1)+(3)(0)+(12)(1)=12\)
长度,距离,正交性
V 是一个内积空间,其内积记为 \(\langle\mathbf u,\mathbf v\rangle\)
长度(范数):\(\mathbf v\) 的长度为 \(\|\mathbf v\|=\sqrt{\langle\mathbf u,\mathbf u\rangle}\)
单位向量:\(\mathbf v\) 是单位向量,当且仅当 \(\|\mathbf v\|=1\)
距离:\(\mathbf u\) 和 \(\mathbf v\) 之间的距离为 \(\|\mathbf u-\mathbf v\|\)
正交:\(\mathbf u\) 和 \(\mathbf v\) 正交,当且仅当 \(\langle\mathbf u,\mathbf v\rangle=0\)
例子
- \(\mathbb P_2\) 上定义参数为 \(t_0=0,t_1=1/2,t_2=1\) 的内积,\(p(t)=12t^2,q(t)=2t-1\),那么 \(\|p\|=\sqrt{\langle p,p\rangle}=\sqrt{p(0)^2+p(1/2)^2+p(1)^2}=\sqrt{153},\|q\|=\sqrt{\langle q,q\rangle}=\sqrt{q(0)^2+q(1/2)^2+q(1)^2}=\sqrt{2}\)
格拉姆-施密特方法
练习:构造 \(\mathbb P_2\) 的正交基
在 V 的特定子空间 W 中选取函数 g 来逼近 V 中的函数 f;其逼近程度依赖于 \(\|f-g\|\) 定义的方式
最佳逼近
给定内积空间 V 中的向量 \(\mathbf v\) 和有限维子空间 W,
应用勾股定理和 \(\mathbf v\) 关于 W 的正交分解,有 \(\|\mathbf v\|^2=\|\text{proj}_W\mathbf v\|^2+\|\mathbf v-\text{proj}_W\mathbf v\|^2\)
柯西-施瓦茨不等式
对于所有 \(\mathbf u,\mathbf v\in V\),有 \(|\langle\mathbf u,\mathbf v\rangle|\le\|\mathbf u\|\|\mathbf v\|\)
\(\|\text{proj}_{L(\bf u)}\mathbf v\|=\left\|\frac{\langle\bf v,u\rangle}{\langle\bf u,u\rangle}\bf u\right\|=\frac{|\langle\bf v,u\rangle|}{|\langle\bf u,u\rangle|}\|\mathbf u\|=\frac{|\langle\bf v,u\rangle|}{\|\mathbf u\|^2}\|\mathbf u\|=\frac{|\langle\bf v,u\rangle|}{\|\mathbf u\|}\)
而 \(\|\text{proj}_{L(\bf u)}\mathbf v\|\le\|\mathbf v\|\)
于是 \(\frac{|\langle\bf v,u\rangle|}{\|\mathbf u\|}\le\|\mathbf v\|\),或 \(|\langle\bf v,u\rangle|\le\|\mathbf u\|\|\mathbf v\|\),即 \(|\langle\bf u,v\rangle|\le\|\mathbf u\|\|\mathbf v\|\)
\(\blacksquare\)
三角形不等式
对于所有 \(\mathbf u,\mathbf v\in V\),有 \(\|\mathbf u+\mathbf v\| \le \|\mathbf u\|+\|\mathbf v\|\)
\(\|\mathbf u+\mathbf v\|^2=\langle\mathbf u+\mathbf v,\mathbf u+\mathbf v\rangle=\langle\mathbf u,\mathbf u\rangle+2\langle\mathbf u,\mathbf v\rangle+\langle\mathbf v,\mathbf v\rangle\)
\(=\|\mathbf u\|^2+2\langle\mathbf u,\mathbf v\rangle+\|\mathbf v\|^2\le\|\mathbf u\|^2+2\|\mathbf u\|\|\mathbf v\|+\|\mathbf v\|^2=(\|\mathbf u\|+\|\mathbf v\|)^2\)
于是 \(\|\mathbf u+\mathbf v\|\le\|\mathbf u\|+\|\mathbf v\|\)
\(\blacksquare\)
C[a,b] 上的内积
总结
- 内积空间公理:向量空间 v 称为以 \(c_1,\cdots,c_n\)内积空间,若 \(\forall\mathbf u,\mathbf v,\mathbf w\in V,c\in\mathbb R\),实值函数 \(\langle\mathbf u,\mathbf v\rangle\) 满足:
- 交换律 \(\langle\mathbf u,\mathbf v\rangle=\langle\mathbf v,\mathbf u\rangle\)
- 加法与点积的分配率 \(\langle\mathbf u+\mathbf v,\mathbf w\rangle=\langle\mathbf u,\mathbf w\rangle+\langle\mathbf v,\mathbf w\rangle\)
- 标量乘法与点积的结合律 \(c\langle\mathbf u,\mathbf v\rangle=\langle c\mathbf u,\mathbf v\rangle\)
- \(\langle\mathbf u,\mathbf u\rangle\ge0\)(\(\langle\mathbf u,\mathbf u\rangle=0\),当且仅当 \(\mathbf u=\mathbf 0\))
- 内积空间的例子:在 \(\mathbb R^n\) 上定义点积 \(\langle\mathbf u,\mathbf v\rangle=\sum\limits_{i=1}^nc_iu_iv_i\)(\(c_1,\cdots,c_n\) 已确定),该空间称为欧式空间;在 \(\mathbb P_n\) 上定义点积 \(\langle p,q\rangle=\sum\limits_{i=0}^np(c_i)q(c_i)\)(\(c_0,\cdots,c_n\) 已确定)
- 长度(范数),单位向量,距离:假设 \(\mathbf u,\mathbf v\in V,c\in\mathbb R\): \(\mathbf u\) 的范数为 \(\|\mathbf u\|=\sqrt{\langle\bf u,u\rangle}\)(\(\|\mathbf u\|^2=\langle\bf u,u\rangle\)),满足 \(\|c\mathbf u\|=|c|\|\mathbf u\|\);\(\mathbf u\) 的单位向量为 \(\pm\frac{\mathbf u}{\|\mathbf u\|}\);\(\mathbf u\) 和 \(\mathbf v\) 之间的距离为 \(\text{dist}(\mathbf u,\mathbf v)=\|\mathbf u-\mathbf v\|\)
- 正交,毕达哥拉斯定理(勾股定理),正交补:\(\bf u,v\) 正交(记 \(\bf u\bot v\)),当且仅当 \(\text{dist}(\mathbf u,\mathbf v)=\text{dist}(\mathbf u,-\mathbf v)\),等价于 \(\langle\mathbf u,\mathbf v\rangle=0\),等价于 \(\|\mathbf u+\mathbf v\|^2=\|\mathbf u\|^2+\|\mathbf v\|^2\)(毕达哥拉斯定理);\(\mathbf u\) 与向量空间 W 正交(记 \(\mathbf u\bot W\)),当且仅当 \(\forall\mathbf v\in W,\langle\mathbf u,\mathbf v\rangle=0\);所有与子空间 W 正交的向量构成集合,称为 W 的正交补,记为 \(W^\bot=\{\mathbf u:~\mathbf u\in V,\mathbf u\bot W\}\)
- 正交补的性质:(1) \(\mathbf x\in W^\bot\),当且仅当 \(\forall\mathbf v\in W,\langle\mathbf x,\mathbf v\rangle=0\),(2) V 的子空间,(3) \(\forall W,W^\bot\subset V\),\(\dim W+\dim W^\bot=n\)
- 定理:若 \(A\in M_{m\times n}\),那么 (1) \((\text{Row}A)^\bot=\text{Nul}A\),(2) \((\text{Col}A)^\bot=\text{Nul}A^T\)
- 角度:\(\mathbf u,\mathbf v\in V\) 之间的角度 \(\theta\) 由 \(\langle\mathbf u,\mathbf v\rangle=\|\mathbf u\|~\|\mathbf v\|\cos\theta\) 定义
- 柯西-施瓦茨不等式,三角不等式:\(\forall\mathbf u,\mathbf v\in V\),都有 (1) \(|\langle\mathbf u,\mathbf v\rangle|\le\|\mathbf u\|\|\mathbf v\|\),(2) \(\|\mathbf u+\mathbf v\|\le\|\mathbf u\|+\|\mathbf v\|\)