7.对称矩阵&二次型
本章依赖于第 5 章的对角化和第 6 章的正交性
7.1 叙述对称矩阵的对角化
7.2,7.3 讨论二次型的基础
7.4,7.5 讨论的奇异值分解和介绍性实例中所描述图像处理依赖于 7.3 的内容
在本章中,所有向量和矩阵的元素均为实数
主成分分析
1. 对称矩阵的对角化
对称矩阵
\(A\in\mathbf R^{n\times n}\) 是对称矩阵,当且仅当 \(A^T=A\);当且仅当 对于所有 \(i,j\le n\) 有 \(a_{ij}=a_{ji}\)
例子
- \(\begin{bmatrix}a&b\\b&c\end{bmatrix},\begin{bmatrix}a&b&c\\b&d&e\\c&e&f\end{bmatrix}\) 均为对称矩阵
- 对角化 \(A=\begin{bmatrix}6&-2&-1\\-2&6&-1\\-1&-1&5\end{bmatrix}\):(对角化的内容详见[5.3])
- 特征方程 \(0=\det(A-\lambda I_3)=-(\lambda-8)(\lambda-6)(\lambda-3)\) 的解为 \(\lambda_1=8,\lambda_2=6,\lambda_3=3\)
- \(\text{Nul}(A-\lambda_1I_3)=\text{Span}\left\{\begin{bmatrix}-1\\1\\0\end{bmatrix}\right\},\text{Nul}(A-\lambda_2I_3)=\text{Span}\left\{\begin{bmatrix}-1/2\\-1/2\\1\end{bmatrix}\right\},\text{Nul}(A-\lambda_3I_3)=\text{Span}\left\{\begin{bmatrix}1\\1\\1\end{bmatrix}\right\}\),得到 \(\mathbb R^3\) 的一个特征向量基 \(S=\left\{\begin{bmatrix}-1\\1\\0\end{bmatrix},\begin{bmatrix}-1/2\\-1/2\\1\end{bmatrix},\begin{bmatrix}1\\1\\1\end{bmatrix}\right\}\)
- (选做)单位化 S 得到 \(\mathbb R^3\) 的一个单位特征向量基 \(\left\{\begin{bmatrix}-1/\sqrt2\\1/\sqrt2\\0\end{bmatrix},\begin{bmatrix}-1/\sqrt6\\-1/\sqrt6\\2/\sqrt6\end{bmatrix},\begin{bmatrix}1/\sqrt3\\1/\sqrt3\\1/\sqrt3\end{bmatrix}\right\}\)
- 令 \(P=\begin{bmatrix}-1/\sqrt2&-1/\sqrt6&1/\sqrt3\\1/\sqrt2&-1/\sqrt6&1/\sqrt3\\0&2\sqrt6&1/\sqrt3\end{bmatrix},D=\begin{bmatrix}8&0&0\\0&6&0\\0&0&3\end{bmatrix}\),有 \(A=PDP^{-1}\)
- 由于 P 恰好是单位正交矩阵,于是 \(A=PDP^T\)
定理
假设 A 是对称矩阵,那么不同特征空间的任意两个特征向量是正交的(不同特征值对应的向量之间正交)
假设 \(\lambda_1,\lambda_2\) 是 A 的两个特征值(\(\lambda_1\ne\lambda_2\)),并且 \(\mathbf 0\ne\mathbf v_1\in\text{Nul}(A-\lambda_1I_n),\mathbf 0\ne\mathbf v_2\in\text{Nul}(A-\lambda_2I_n)\)
\(\lambda_1(\mathbf v_1\cdot\mathbf v_2)=\lambda_1(\mathbf v_1^T\mathbf v_2)=(\lambda_1\mathbf v_1^T)\mathbf v_2=(\lambda_1\mathbf v_1)^T\mathbf v_2=(A\mathbf v_1)^T\mathbf v_2=\mathbf v_1^TA^T\mathbf v_2\)
由于 \(A^T=A\),于是 \(\lambda_1(\mathbf v_1\cdot\mathbf v_2)=\mathbf v_1^TA\mathbf v_2=\mathbf v_1^T(\lambda_2\mathbf v_2)=\lambda_2(\mathbf v_1^T\mathbf v_2)=\lambda_2(\mathbf v_1\cdot\mathbf v_2)\)
于是 \((\lambda_1-\lambda_2)(\mathbf v_1\cdot\mathbf v_2)=0\),而 \(\lambda_1\ne\lambda_2\),那么 \(\mathbf v_1\cdot\mathbf v_2=0\)
\(\blacksquare\)
正交对角化
方阵 \(A\in\mathbb R^{n\times n}\) 可正交对角化,当且仅当 存在正交矩阵 P 和对角矩阵 D 使得 \(A=PDP^{-1}=PDP^T\)
定理:A 可正交对角化,当且仅当 A 是对称矩阵
正交对角化算法:
- 对 A 应用 [对角化定理],得到对角矩阵 D,以及矩阵 Q,使得 \(A=QDQ^{-1}\);若 A 具有 n 个不同的特征值,那么 \(A=QDQ^T\),算法结束
- 对 Q 的列应用 [格拉姆-施密特方法],得到正交矩阵 P,使得 \(A=PDP^T\)(或者分别对重数不小于 2 的特征空间的基进行构造)
(注:\(\mathbf p_i\) 为单位特征向量)
例子
- 正交对角化 \(A=\begin{bmatrix}3&-2&4\\-2&6&2\\4&2&3\end{bmatrix}\):
- \(0=\det(A-\lambda I_n)=-(\lambda-7)^2(\lambda+2)\) 解得 \(\lambda_1=7,\lambda_2=-2\)
- A 的特征空间分别为 \(\text{Nul}(A-\lambda_1 I_n)=\text{Span}\left\{\begin{bmatrix}-1/2\\1\\0\end{bmatrix},\begin{bmatrix}1\\0\\1\end{bmatrix}\right\},\text{Nul}(A-\lambda_2 I_n)=\text{Span}\left\{\begin{bmatrix}-1\\-1/2\\1\end{bmatrix}\right\}\),得到 \(\mathbb R^3\) 的特征向量基 \(S=\left\{\begin{bmatrix}-1/2\\1\\0\end{bmatrix},\begin{bmatrix}1\\0\\1\end{bmatrix},\begin{bmatrix}-1\\-1/2\\1\end{bmatrix}\right\}\)
- S 单位正交化为 \(\left\{\begin{bmatrix}-1/\sqrt5\\2/\sqrt5\\0\end{bmatrix},\begin{bmatrix}4/\sqrt{45}\\2/\sqrt{45}\\5/\sqrt{45}\end{bmatrix},\begin{bmatrix}-2/3\\-1/3\\2/3\end{bmatrix}\right\}\)
- 于是 \(A=PDP^T\)(\(P=\begin{bmatrix}-1/\sqrt5&4/\sqrt{45}&-2/3\\2/\sqrt5&2/\sqrt{45}&-1/3\\0&5/\sqrt{45}&2/3\end{bmatrix}\),\(D=\begin{bmatrix}7&0&0\\0&7&0\\0&0&-2\end{bmatrix}\))
谱定理
谱:矩阵 A 的特征值的集合称为 A 的谱
一个对称矩阵 \(A\in\mathbb R^{n\times n}\) 具有如下性质(对称矩阵的谱定理):
- A 具有 n 个实特征值,并且包含重复的特征值(存在某个特征值,重数不小于 2?)
- 对于每一个特征值 \(\lambda\),对应的特征空间维数等于 \(\lambda\) 作为特征方程的根的重数
- 不同的特征空间两两相互正交
- A 可正交对角化
注:(1)参考 5.5-24;(2)参考 7.1-31 或 (4);(3)参考 7.1 “定理”;(4)参考 7.1-32 或 第6章补充习题 16
(2)
\(\blacksquare\)
谱分解
对称矩阵 A 的谱分解为 \(A=\sum\limits_{i=1}^n\lambda_i\mathbf p_i\mathbf p_i^T\)(P 和 D 由 A 的正交对角化得到)
\(\mathbf p_i\mathbf p_i^T\) 称为 投影矩阵(满足 \(\forall\mathbf x\in\mathbb R^n,\text{proj}_{L(\mathbf p_i)}\mathbf x=(\frac{\mathbf x\cdot\mathbf p_i}{\mathbf p_i\cdot\mathbf p_i})\mathbf p_i=\mathbf p_i\mathbf p_i^T\mathbf x\))
推论:$$
将对称矩阵正交对角化为 \(A=PDP^T\)
于是 \(A=[\mathbf p_1\cdots\mathbf p_n]\begin{bmatrix}\lambda_1\\&\ddots\\&&\lambda_n\end{bmatrix}\begin{bmatrix}\mathbf p_1^T\\\vdots\\\mathbf p_n^T\end{bmatrix}=[\mathbf p_1\cdots\mathbf p_n]\begin{bmatrix}\mathbf \lambda_1\mathbf p_1^T\\\vdots\\\lambda_n\mathbf p_n^T\end{bmatrix}=\sum\limits_{i=1}^n\mathbf p_i(\lambda_i\mathbf p_i^T)=\sum\limits_{i=1}^n\lambda_i\mathbf p_i\mathbf p_i^T\)
(注:D 与单位矩阵 \(I_n\) 行等价或列等价,于是 \(DP^T\) 将 \(P^T\) 的一些行放大 \(\lambda_i\) 倍,或者 \(PD\) 将 P 的一些列放大 \(\lambda_i\) 倍)
证明:
\(A^n\mathbf x=A(A^{n-1}\mathbf x)=(\sum\limits_{i=1}^n\lambda_i\mathbf p_i\mathbf p_i^T)A^{n-1}\mathbf x=\sum\limits_{i=1}^n\lambda_i\mathbf p_i\mathbf p_i^TA^{n-1}\mathbf x=\sum\limits_{i=1}^n\lambda_i\mathbf p_i\mathbf p_i^T(\lambda_i^{n-1}\mathbf x)=\sum\limits_{i=1}^n\lambda_i^n\mathbf p_i\mathbf p_i^T\mathbf x\)
\(\blacksquare\)
例子
- A 的正交对角化为 \(A=PDP^T=\begin{bmatrix}-1/\sqrt5&4/\sqrt{45}&-2/3\\2/\sqrt5&2/\sqrt{45}&-1/3\\0&5/\sqrt{45}&2/3\end{bmatrix}\begin{bmatrix}7&0&0\\0&7&0\\0&0&-2\end{bmatrix}\begin{bmatrix}-1/\sqrt5&4/\sqrt{45}&-2/3\\2/\sqrt5&2/\sqrt{45}&-1/3\\0&5/\sqrt{45}&2/3\end{bmatrix}^T\),那么 A 的谱分解为 \(A=7\begin{bmatrix}1/5&-2/5&0\\-2/5&4/5&0\\0&0&0\end{bmatrix}+7\begin{bmatrix}16/45&8/45&20/45\\8/45&4/45&10/45\\20/45&10/45&25/45\end{bmatrix}-2\begin{bmatrix}4/9&2/9&-4/9\\2/9&1/9&-2/9\\-4/9&-2/9&4/9\end{bmatrix}\)
总结
- 对称矩阵:\(n\times n\) 矩阵 A 满足 \(A^T=A\)(即 \(\forall i,j=1..n,a_{ij}=a_{ji}\)),那么称 A 为对称矩阵
- 对称矩阵的性质:若 A 是对称矩阵,那么:(1) 位于不同向量空间的任意两个特征向量是正交的(\(\forall i\ne j,\mathbf u\in\text{Nul}(A-\lambda_iI_n),\mathbf v\in\text{Nul}(A-\lambda_jI_n)\),有 \(\mathbf u\cdot\mathbf v=0\)),(2) 若 A 没有重复的特征值,那么 A 的任意对角化都是正交对角化
- 正交对角化定理:方阵 A 可正交对角化(即存在正交矩阵 P 和对角矩阵 D 使得 \(A=PDP^T=PDP^{-1}\)),当且仅当 A 是对称矩阵
- 正交对角化算法:(1) 利用特征方程 \(\text{det}(A-\lambda I_n)=0\) 计算特征值,(2) 计算各个特征空间的基,(3) 对每个特征空间基使用[格拉姆-施密特算法]正交化,然后进行单位化,(4) 以特征值为对角线得到对角矩阵 D,以所有特征空间的正交基的向量作为列得到 P,有 \(A=PDP^T=PDP^{-1}\)
- 谱,谱定理:矩阵 A 的特征值的集合称为谱;对称矩阵 \(A\in M_{n\times n}\) 的谱定理:(1) A 有 n 个实特征值(相同的特征值重复计数),(2) 每个特征值对应的特征空间的维数等于该特征值的重数(\(\forall i=1..p,\dim\text{Nul}(A-\lambda_iI_n)=\lambda_i的重数\)),(3) 不同的特征空间两两相互正交(\(\forall i,j=1..n,i\ne j,\text{Nul}(A-\lambda_iI_n)=(\text{Nul}(A-\lambda_jI_n))^\bot\)),(4) A 可正交对角化
- 谱分解,投影矩阵:对称矩阵 A 的谱分解为 \(A=\sum\limits_{i=1}^n\lambda_i\mathbf p_i\mathbf p_i^T\)(P 和 D 由 A 的正交对角化得到);\(\forall i=1..n,\mathbf p_i\mathbf p_i^T\) 称为投影矩阵
一级结论
- 矩阵 A 可逆,当且仅当其对角化 \(A=PDP^{-1}\) 中 D 可逆(即 A 没有 0 特征值)
- 若 B 是 \(n\times n\) 对称矩阵,且 \(B=B^2\),那么 \(\forall\mathbf x\in\mathbb R^n,\text{proj}_{\text{Col}B}\mathbf x=B\mathbf x\)
二级结论
- 单位正交的对称矩阵 A 满足 \(A=A^T=A^{-1}\)
- \(\text{proj}_{L(\bf u)}\mathbf x=(\frac{\bf x\cdot u}{\bf u\cdot u})\mathbf u=(\frac{\mathbf u\mathbf u^T}{\bf u\cdot u})\mathbf x\);\(\text{proj}_W\mathbf x=\sum\limits_{i=1}^n\frac{\mathbf u_i\mathbf u_i^T}{\mathbf u_i\cdot\mathbf u_i}\mathbf x\)(若 \(\mathbf u_1,\cdots,\mathbf u_n\) 是 W 的正交基);\(\text{proj}_W\mathbf x=UU^T\mathbf x\)(若 U 的各列是 W 的单位正交基的元素)
- 正交对角化的应用:\((1)二次型的“标准化”(即消除交叉乘积项)(2)二次型的条件最值(3)奇异值分解\)
常用矩阵的性质
- 单位矩阵:\(\det A=1\)
- 正交矩阵(此处为非单位矩阵):\(\det A=\pm\prod\limits_{i=1}^n\|\mathbf a_i\|\)(若 A 是方阵)
- 对称矩阵:
练习
- 证明:若矩阵 A 是对称的,那么 \(A^2\) 也是对称的
- 证明:若矩阵 A 可正交对角化,那么 \(A^2\) 也可正交对角化
- 判断题
- 可正交对角化的方阵一定是对称的(Y)
- 若 \(A^T=A\) 且向量 \(\bf u\) 和 \(\bf v\) 满足 \(A\mathbf u=3\mathbf u\) 和 \(A\mathbf v=4\mathbf v\),那么 \(\mathbf u\cdot\mathbf v=0\)(Y)
- 对称矩阵 A 有 n 个不同的实特征值(X)
- \(\forall\mathbf v\in\mathbb R^n\),矩阵 \(\mathbf v\mathbf v^T\) 被称为投影矩阵(X)
- 每一个对称矩阵都可以正交对角化(X?)
- 若 \(B=PDP^T\),其中 \(P^T=P^{-1}\) 且 D 是对角矩阵,那么 B 是对称矩阵(Y)
- 一个正交矩阵是可正交对角化的(X)
- 一个对称矩阵的特征空间的维数等于对应的特征值的重数(X)
- 如何计算各列正交的方阵的逆?
- 证明:\(\text{proj}_{L(\bf u)}\mathbf x=(\frac{\bf u\cdot x}{\bf u\cdot u})\mathbf u=\frac{\mathbf u\mathbf u^T}{\bf u\cdot u}\mathbf x\) 中的后一个等式不成立
- 计算这些各列正交的矩阵的逆:(1) \(A=\begin{bmatrix}2/3&-2/3&-1/3\\1/3&2/3&-2/3\\2/3&1/3&2/3\end{bmatrix}\),(2) \(A=\begin{bmatrix}2&-2&-1\\1&2&-2\\2&1&2\end{bmatrix}\)
- 假设矩阵 A 是对称矩阵(重要)
- 给定足够多个特征值 \(\lambda_1,\cdots,\lambda_p\),是否能加速 A 的正交对角化?
- 给定足够多个特征向量 \(\mathbf v_1,\cdots,\mathbf v_p\),是否能假设 A 的正交对角化?
- 证明:若 A 是 \(n\times n\) 的对称矩阵,那么 \(\forall\mathbf x,\mathbf y\in\mathbb R^n,(A\mathbf x)\cdot\mathbf y=\mathbf x\cdot(A\mathbf y)\)
- 证明:若 A 是 \(n\times n\) 的对称矩阵,B 是 \(n\times m\) 矩阵,那么 \(B^TAB,BAB^T,B^TB,BB^T\) 是对称矩阵
- 证明:若 A 是可正交对角化的可逆矩阵,那么 \(A^{-1}\) 可正交对角化(并且 \(A^{-1}=PD^{-1}P^{-1}\))
- 证明:若 A 和 B 都可正交对角化,且 \(AB=BA\),那么 AB 也可以正交对角化
- 证明:若 \(A=PRP^{-1}\),并且 P 是正交矩阵,R 是上三角矩阵,那么 R 对角矩阵
- 假设 \(\mathbf u\) 是 \(\mathbb R^n\) 上的单位向量,\(B=\mathbf u\mathbf u^T\)
- 证明:\(\forall\mathbf x\in\mathbb R^n,\text{proj}_{L(\bf u)}\mathbf x=\mathbf u\mathbf u^T\mathbf x\)
- 证明:B 是对称矩阵,并且 \(B^2=B\)
- 证明:\(\bf u\) 是 B 的特征向量,并求对应的特征值
- 假设 B 是 \(n\times n\) 的对称矩阵,\(B^2=B\),任何此类矩阵被称为投影矩阵(或正交投影矩阵),\(\forall\mathbf y\in\mathbb R^n\),设 \(\hat y=B\mathbf y,\mathbf z=\mathbf y-\hat y\)
- 证明:\(\hat y\) 与 \(\bf z\) 正交
- 证明:假设 \(W=\text{Col}B\),那么 \(\bf y\) 是空间 W 中一个向量与 \(W^\bot\) 中一个向量之和,并且 \(\hat y\) 是 \(\bf y\) 在 W 上的正交投影
提示
(1) 由 \(A=A^T\),\(A^2=(A^T)^2=A^TA^T=(AA)^T=(A^2)^T\),于是 \(A^2\) 也是对称的
(2) A 可正交对角化,蕴涵 A 是对称矩阵,根据(1)有 \(A^2\) 也是对称矩阵,蕴涵 \(A^2\) 可正交对角化
(3.4)
(6)
- A 是单位正交矩阵,于是 \(A^{-1}=A^T=\begin{bmatrix}2/3&1/3&2/3\\-2/3&2/3&1/3\\-1/3&-2/3&2/3\end{bmatrix}\)
- \(\frac13A\) 是单位正交矩阵,于是 \(A^{-1}=(3\frac13A)^{-1}=\frac13(\frac13A)^{-1}=\frac13\begin{bmatrix}2/3&1/3&2/3\\-2/3&2/3&1/3\\-1/3&-2/3&2/3\end{bmatrix}\)
(9)
- \((B^TAB)^T=B^TA^T(B^T)^T=B^TAB\)
- \((BAB^T)^T=(B^T)^TA^TB^T=BAB^T\)
- 令 \(A=I_n\),易得 \((B^TB)^T=B^TB\),\((BB^T)^T=BB^T\)
(10) \(A=PDP^T\) 和 A 可逆,蕴涵 \(A^{-1}=(PDP^{-1})^{-1}=PD^{-1}P^{-1}\),其中 \(D^{-1}\) 是对角矩阵,于是 \(A^{-1}\) 可正交对角化
(12) 由 P 是正交矩阵和 \(A=PRP^{-1}\),有 \(A=PRP^T\),即 \(R=P^TAP\),蕴涵 \(R^T=P^TA^TP=P^TAP=R\),于是 R 是对称的;又由 R 是上三角矩阵,于是 R 是对角矩阵
(13)
- \((\mathbf u\mathbf u^T)\mathbf x=\mathbf u(\mathbf u^T\mathbf x)=\mathbf u(\mathbf u\cdot\mathbf x)=(\mathbf u\cdot\mathbf x)\mathbf u=(\mathbf x\cdot\mathbf u)\mathbf u=\text{proj}_{L(\bf u)}\mathbf x\)(由于 \(\bf u\) 是单位向量)
- \(B^T=(\mathbf u\mathbf u^T)^T=\mathbf u^{TT}\mathbf u^T=\mathbf u\mathbf u^T=B\),于是 B 是对称矩阵;\(B^2=(\mathbf u\mathbf u^T)(\mathbf u\mathbf u^T)=\mathbf u(\mathbf u^T\mathbf u)\mathbf u^T=\mathbf u\mathbf u^T=B\),于是 \(B^2=B\)
- \(B\mathbf u=\mathbf u\mathbf u^T\mathbf u=\mathbf u(1)=1\mathbf u\),于是 1 是 \(\bf u\) 对应的特征值
(14)
- \(\mathbf z\cdot\hat y=(\mathbf y-\hat y)\cdot\hat y=(\mathbf y-B\mathbf y)\cdot(B\mathbf y)=\mathbf y\cdot(B\mathbf y)-(B\mathbf y)\cdot(B\mathbf y)\) \(=\mathbf y\cdot(B\mathbf y)-(B\mathbf y)^T(B\mathbf y)=\mathbf y^TB\mathbf y-\mathbf y^TB^TB\mathbf y=\mathbf y^TB\mathbf y-\mathbf y^TB^2\mathbf y=\mathbf y^TB\mathbf y-\mathbf y^TB\mathbf y=0\)(由于 \(B^T=B,B^2=B\))
- \(\hat y=B\mathbf y\),蕴涵 \(\hat y\in W\);又由 (1) 的结论,于是 \(\mathbf z\in W^\bot\);根据[正交分解定理]有 \(\hat y\) 是 \(\bf y\) 在 W 是上的正交投影
2. 二次型
本教材除了第 6 章计算 \(\mathbf x^T\mathbf x\) 时所遇到的平方和外,我们所关注的主要是线性方程;这类平方和及其更一般的形式的表达式称为二次型,常应用在工程(设计标准和优化),信号处理(输出的噪声功率),物理学(势能,动能),微分几何(曲面的法曲率),经济学(效用函数),统计学(置信椭圆体)
二次型
二次型 \(Q~:~\mathbb R^n\to\mathbb R\) 定义为(多元)函数 \(Q(\mathbf x)=\mathbf x^TA\mathbf x\)
其中对称矩阵 \(A\in\mathbb R^{n\times n}\) 称为关于二次型的矩阵
其展开形式为:\(Q(\mathbf x)=\sum\limits_{i=1}^nx_i(\mathbf x\cdot\mathbf a_i)=\sum\limits_{i=1}^n\sum\limits_{j=1}^nx_ix_ja_{ij}\) 或 \(Q(\mathbf x)=\sum\limits_{i=1}^na_{ii}x_i^2+\sum\limits_{i=1}^n\sum\limits_{j=1}^{i-1}2a_{ij}x_iy_j\)
另外,最简单的二次型 \(Q(\mathbf x)=\mathbf x^TI\mathbf x=\|\mathbf x\|^2\)
注:\(0,cx_1^2,\|\mathbf x\|^2\) 也是二次型
\(Q(\mathbf x)=\mathbf x^TA\mathbf x=\mathbf x^T\sum\limits_{i=1}^n\mathbf a_i(x_i)=\sum\limits_{i=1}^nx_i(\mathbf x^T\mathbf a_i)=\sum\limits_{i=1}^nx_i(\mathbf x\cdot\mathbf a_i)=\sum\limits_{i=1}^nx_i\sum\limits_{j=1}^nx_ja_{ji}=\sum\limits_{i=1}^n\sum\limits_{j=1}^nx_ix_ja_{ji}=\sum\limits_{i=1}^n\sum\limits_{j=1}^nx_ix_ja_{ij}\)
\(\blacksquare\)
例子
- \(\mathbf x=\begin{bmatrix}x_1\\x_2\end{bmatrix}\),\(A=\begin{bmatrix}4&0\\0&3\end{bmatrix},B=\begin{bmatrix}3&-2\\-2&7\end{bmatrix}\),使用二次型的展开式直接得到 \(\mathbf x^TA\mathbf x=4x_1^2+3x_2^2,\mathbf x^TB\mathbf x=(3x_1^2+7x_2^2)+(-4x_1x_2)\)
- \(\mathbf x=\begin{bmatrix}x_1\\x_2\\x_3\end{bmatrix}\),\(Q(\mathbf x)=5x_1^2+3x_2^2+2x_3^2-x_1x_2+8x_2x_3\),使用二次型的展开式直接得到 \(Q(\mathbf x)=\mathbf x^T\begin{bmatrix}5&-1/2&0\\-1/2&3&4\\0&4&2\end{bmatrix}\mathbf x\)
二次型的变量代换
假设 \(n\times n\) 对称矩阵 A 正交对角化为 \(A=PDP^T\)(\(D=P^TAP\))
定义(逆)变换 \(\mathbf x=P\mathbf y\) 或 \(\mathbf y=P^{-1}\mathbf x\)(正交矩阵 P 可逆)
二次型 \(Q(\mathbf x)=\mathbf x^TA\mathbf x\) 可变形为 \(Q(\mathbf x)=\mathbf y^TD\mathbf y=\sum\limits_{i=1}^n\lambda_iy_i^2\)
即 \(Q(\mathbf x)=\mathbf y^TD\mathbf y=\sum\limits_{i=1}^n\lambda_iy_i^2\) (其中 \(\mathbf y=P^{-1}\mathbf x=P^T\mathbf x\))
又或者 \(Q(\mathbf x)=[\mathbf x]_{\cal P}^TD[\mathbf x]_{\cal P}\)(\(\cal P\) 为 \(\text{Col}P\) 的一个基)
性质:\(\|P\mathbf y\|=\|\mathbf y\|\)
注:二次型的正交对角变换的目的是去除二次型的交叉乘积项
\(n\times n\) 对称矩阵 A 正交对角化为 \(A=PDP^T\),蕴涵 \(D=P^TAP\)
由于 P 可逆,于是唯一 \(\exists\mathbf y,\mathbf x=P\mathbf y\);同时 \(\mathbf y=P^{-1}\mathbf x\),于是 \(\mathbf y=[\mathbf x]_{\cal P}\)(\(\cal P\) 为 \(\text{Col}P\) 的一个基)
\(Q(\mathbf x)=\mathbf x^TA\mathbf x=(P\mathbf y)^TA(P\mathbf y)=\mathbf y^T(P^TAP)\mathbf y=\mathbf y^TD\mathbf y\)
或者 \(Q(\mathbf x)=[\mathbf x]_{\cal P}^TD[\mathbf x]_{\cal P}\)
\(\blacksquare\)
例子
- 假设 \(A=\begin{bmatrix}1&-4\\-4&-5\end{bmatrix}\),将二次型 \(Q(\mathbf x)=\mathbf x^TA\mathbf x\) 变换为一个没有交叉乘积项的二次型:
- A 正交对角化为 \(A=PDP^T=\begin{bmatrix}2/\sqrt5&1/\sqrt5\\-1/\sqrt5&2\sqrt5\end{bmatrix}\begin{bmatrix}3&0\\0&-7\end{bmatrix}\begin{bmatrix}2/\sqrt5&1/\sqrt5\\-1/\sqrt5&2\sqrt5\end{bmatrix}^T\)
- 令 \(\mathbf x=P\mathbf y\),经计算有 \(Q(\mathbf x)=\mathbf y^TD\mathbf y=3y_1^2-7y_2^2\)
- (1) 中的 \(Q(\mathbf x)\) 在 \(\mathbf x=(2,-2)\) 处的取值为 \(Q(\mathbf x)=3y_1^2-7y^2=16\)(其中 \(\mathbf y=P^T\mathbf x=(6/\sqrt5,-2/\sqrt5)\))
主轴定理
对称矩阵 \(A\in\mathbb R^{n\times n}\) 存在一个正交变量代换 \(\mathbf x=P\mathbf y\),它将二次型 \(\mathbf x^TA\mathbf x\) 变换为不含交叉乘积项的二次型 \(\mathbf y^TD\mathbf y\)
正交矩阵 P 的列称为二次型 \(\mathbf x^TA\mathbf x\) 的主轴
向量 \(\mathbf y\) 是向量 \(\mathbf x\) 在这些主轴构造的 \(\mathbb R^n\) 空间的单位正交基下的坐标向量
主轴的几何定义
假设二次型 \(Q(\mathbf x)=\mathbf x^TA\mathbf x\)(A 对称),\(c\in\mathbb R\)
若 \(A\in\mathbb R^2\),那么满足 \(Q(\mathbf x)=c\) 的 \(\mathbf x\) 对应一个 椭圆,双曲线,两条相交直线,单个点,空集 其中之一
- 若 A 是对角矩阵,那么图像为标准的图像
- 若 A 不是对角矩阵,那么图像是标准图像的旋转
例子
- 某个椭圆方程为 \(5x_1^2-4x_1x_2+5x_2^2=48\),求一个变量代换,将方程中的交叉项消去
- 椭圆方程等价于 \(\mathbf x^TA\mathbf x=48\),其中 \(A=\begin{bmatrix}5&-2\\-2&5\end{bmatrix},\mathbf x=(x_1,x_2)\)
- A 正交对角化为 \(A=\begin{bmatrix}1/\sqrt2&-1/\sqrt2\\1/\sqrt2&1/\sqrt2\end{bmatrix}\begin{bmatrix}3&0\\0&7\end{bmatrix}\begin{bmatrix}1/\sqrt2&-1/\sqrt2\\1/\sqrt2&1/\sqrt2\end{bmatrix}^T\)
- 设 \(\mathbf x=P\mathbf y\),经计算后有 \(\mathbf x^TA\mathbf x=\mathbf y^TD\mathbf y=3y_1^2+7y_2^2\)
- 于是 \(3y_1^2+7y_2^2=48\)(\(\mathbf y=P^T\mathbf x\))
二次型的分类
假设有二次型 Q,那么:
- Q 是正定的,当且仅当对于所有 \(\mathbf x\ne\mathbf 0\),都有 \(Q(\mathbf x)>0\)
- Q 是负定的,当且仅当对于所有 \(\mathbf x\ne\mathbf 0\),都有 \(Q(\mathbf x)<0\)
- Q 是不定的,\(Q(\mathbf x)\) 既有正值又有负值
- Q 是半正定的,当且仅当对于所有 \(\mathbf x\),都有 \(Q(\mathbf x)\ge0\)
- Q 是半负定的,当且仅当对于所有 \(\mathbf x\),都有 \(Q(\mathbf x)\le0\)
二次型与特征值
设 A 是对称方阵,那么二次型 \(\mathbf x^TA\mathbf x\) 是:
- 正定的,当且仅当 A 的所有特征值都是正数(A 称为正定矩阵)
- 负定的,当且仅当 A 的所有特征值都是负数(A 称为负定矩阵)
- 不定的,当且仅当 A 既有正特征值,又有负特征值(A 称为不定矩阵)
由[主轴定理],存在一个单位正交的变量代换 \(\mathbf x=P\mathbf y\) 使得 \(Q(\mathbf x)=\mathbf x^TA\mathbf x=\mathbf y^TD\mathbf y=\sum\limits_{i=1}^n\lambda_iy_i^2\)
假设 \(\mathbf x\ne\mathbf 0\),蕴涵 \(\mathbf y\ne\mathbf 0\),即 \(\exists i,y_i\ne0\),蕴涵 \(y_i>0\)
若 \(\forall i=1..n,\lambda_i>0\),那么 \(Q(\mathbf x)>0\),即 \(Q(\mathbf x)\) 是正定的;若 \(Q(\mathbf x)>0\),那么假设 \(\bf y\) 只有第 \(\forall i=1..n\) 个元素 \(\mathbf y_i\) 非零,于是 \(\lambda_i>0\),而对于 \(\bf y\) 有不小于 2 个元素非零的情况也满足 \(\forall i=1..n,\lambda_i>0\)
于是 \(\forall i=1..n,\lambda_i>0\),当且仅当 \(Q(\mathbf x)\) 是正定的,
同理 \(\forall i=1..n,\lambda_i<0\),当且仅当 \(Q(\mathbf x)\) 是负定的
...
\(\blacksquare\)
例子
- \(Q(\mathbf x)=3x_1^2+2x_2^2+x_3^2+4x_1x_2+4x_2x_3\),于是 \(Q(\mathbf x)=\mathbf x^T\begin{bmatrix}3&2&0\\2&2&2\\0&2&1\end{bmatrix}\mathbf x\),而 A 的特征值为 \(\lambda_1=5,\lambda_2=2,\lambda_3=-1\),于是 \(Q(\mathbf x)\) 是不定二次型
总结
- 二次型,关于二次型的矩阵:假设 \(A\in M_{n\times n}\) 是对称矩阵,那么多元实值函数(\(Q:~\mathbb R^n\to\mathbb R\)) \(Q(\mathbf x)=\mathbf x^TA\mathbf x=\sum\limits_{i=1}^nx_i(\mathbf x\cdot\mathbf a_i)\) 定义为二次型;A 称为关于二次型的矩阵;另外 \(Q(\mathbf x)=\sum\limits_{i=1}^n\sum\limits_{j=1}^nx_ix_ja_{ij}=\sum\limits_{i=1}^na_{ii}x_i^2+\sum\limits_{i=1}^n\sum\limits_{j=1}^{i-1}2a_{ij}x_iy_j\)
- 二次型的正交对角变换:\(n\times n\) 正交对角化为 \(A=PDP^T\),假设有逆变换 \(\mathbf x=P\mathbf y\),那么二次型 \(Q(\mathbf x)=\mathbf y^TD\mathbf y=\sum\limits_{i=1}^n\lambda_iy_i^2\)(\(\mathbf y=P^T\mathbf x\))
- 主轴定理,主轴:假设 A 是 \(n\times n\) 对称矩阵,那么 \(\exists\mathbf y,\mathbf x=P\mathbf y\)(单位正交变量代换)使得二次型 \(\mathbf x^TA\mathbf x\) 变换为不包含交叉乘积项的二次型 \(\mathbf y^TD\mathbf y\);正交矩阵 P 的列称为二次型 \(\mathbf x^TA\mathbf x\) 的主轴
- 主轴的几何意义:假设二次型 \(Q(\mathbf x)=\mathbf x^TA\mathbf x\)(\(\mathbf x\in\mathbb R^2\),A 是对称矩阵),那么 \(Q(\mathbf x)=c\) 对应一个 椭圆,双曲线,两条相交直线,单个点,空集 其中之一;若 A 是对角矩阵,那么 \(Q(\mathbf x)=c\) 的图像为标准的图像,否则为标准图像的旋转;\(Q(\mathbf x)=z\)(\(\mathbf x\in\mathbb R^n\),z 是变量)表示一个 \(n+1\) 维图形,而 \(Q(\mathbf x)=c\) 只是该图形的“等值线”(每个主轴是一个向量,在原始坐标轴上画出这些向量后,可以发现二次型的图像是在这些主轴上是标准图像)
- 二次型的分类:\(Q(\mathbf x)=\mathbf x^TA\mathbf x是\begin{cases}正定的&\forall\mathbf x\ne\mathbf 0,Q(\mathbf x)>0\\负定的&\forall\mathbf x\ne\mathbf 0,Q(\mathbf x)<0\\不定的&\exists\mathbf x\ne\mathbf y,Q(\mathbf x)Q(\mathbf y)<0\\半正定的&\forall\mathbf x,Q(\mathbf x)\ge0\\半负定的&\forall\mathbf x,Q(\mathbf x)\le0\end{cases}\)(注:矩阵 A 的分类类似)
- 二次型定理:\(Q(\mathbf x)=\mathbf x^TA\mathbf x是\begin{cases}正定的&\forall i=1..n,\lambda_i>0\\负定的&\forall i=1..n,\lambda_i<0\\不定的&\exists i\ne j,\lambda_i\lambda_j<0\\半正定的&\forall i=1..n,\lambda_i\ge0\\半负定的&\forall i=1..n,\lambda_i\le0\\\end{cases}\)
一级结论
- 若 A 是正定的,可以构造正定或负定的矩阵 B,使得 \(A=B^TB\)
- 若 A 是负定的,可以构造正定矩阵 B 和负定矩阵 C,使得 \(A=B^TC\)
例子
- 给出一个半正定矩阵 A
- 判断题
- 二次型的矩阵是一个对称矩阵(Y)
- 一个二次型没有交叉乘积项,当且仅当二次型的矩阵是对角矩阵(Y)
- 二次型 \(\mathbf x^TA\mathbf x\) 的主轴是 A 的特征向量(Y)
- 一个正定二次型 Q 满足 \(\forall\mathbf x\in\mathbb R^n,Q(\mathbf x)>0\)(X)
- 若对称矩阵 A的所有特征值都是正的,那么二次型 \(\mathbf x^TA\mathbf x\) 是正定的(Y)
- 对称矩阵 A 的楚列斯基分解具有形式 \(A=R^TR\),其中上三角矩阵 R 具有正的对角线元素(Y?)
- 不等式 \(\|\mathbf x\|^2\) 不是一个二次型(X)
- 如果 A 对称且 P 是正交矩阵,那么变量代换 \(\mathbf x=P\mathbf y\) 将 \(\mathbf x^TA\mathbf x\) 变换为没有交叉乘积项的二次型(X?)
- 若 A 是 \(2\times 2\) 对称矩阵,那么满足 \(\mathbf x^TA\mathbf x=c\)(c 是常数)的 \(\bf x\) 的集合对应的几何图形是圆,椭圆,或双曲线(X)
- 一个不定二次型既不是半正定的,也不是半负定的(Y)
- 假设 A 对称,\(\forall\bf x\ne0\),二次型 \(\mathbf x^TA\mathbf x\) 仅有负值,那么 A 的所有特征值是正定(X)
- 假设 \(A=\begin{bmatrix}5&1/3\\1/3&1\end{bmatrix}\),若 \(\mathbf x=(6,1)\),计算二次型 \(\mathbf x^TA\mathbf x\)
- 计算二次型 \(3x_1^2-4x_1x_2+5x_2^2\) 的矩阵形式
- 求一个变量代换 \(\mathbf x=P\mathbf y\) 使得二次型 \(Q(\mathbf x)\) 变换为没有交叉乘积项的形式
- \(Q(\mathbf x)=x_1^2+10x_1x_2+x_2^2\)
- \(Q(\mathbf x)=9x_1^2+7x_2^2+11x_3^2-8x_1x_2+8x_1x_3\)
- \(Q(\mathbf x)=2x_1^2+2x_2^2-6x_1x_2-6x_1x_3-6x_1x_4-6x_2x_3-6x_2x_4-x_3x_4\)
- 假设 \(\mathbf x\in\mathbb R^2\),且 \(\mathbf x^T\mathbf x=1\)(即 \(x_1^2+x_2^2=1\)),那么二次型 \(5x_1^2+8x_2^2\) 的最大值是多少?
- 假设 A 是 \(2\times 2\) 的对称矩阵,有二次型 \(Q(\mathbf x)=\mathbf x^TA\mathbf x\)
- 证明:\(\det A>0,a>0\),则 Q 是正定的
- 证明:\(\det A>0,a<0\),则 Q 是负定的
- 证明:\(\det A<0\),则 Q 是不定的
- 假设 B 是 \(m\times n\) 矩阵
- 证明:\(B^TB\) 是半正定的
- 证明:若 B 是 \(n\times n\) 可逆矩阵,那么 \(B^TB\) 是正定的
- 证明:若 \(A\in M_{n\times n}\) 是正定的,那么 \(\exists 正定矩阵B\in M_{m\times n}\) 使得 $A=B^TB
- 证明:\(A,B\in M_{n\times n}\) 都是正定的,那么 \(A+B\) 也是正定的
- 证明:假设 \(A\in M_{n\times n}\) 可逆并且对称,若二次型 \(\mathbf x^TA\mathbf x\) 是正定的,那么 \(\mathbf x^TA^{-1}\mathbf x\) 也是正定的
提示
(1) 如:\(\begin{bmatrix}2&0\\0&1\end{bmatrix},\begin{bmatrix}2&0\\0&0\end{bmatrix},\begin{bmatrix}0&0\\0&0\end{bmatrix}\) 均是半正定的
(2.4) \(\bf x\) 缺少假设 \(\bf\ne0\),(2.8) \(P^TAP\) 必须是对角的
(3) \(\mathbf x^TA\mathbf x=(5x_1^2+x_2^2)+(2/3)x_1x_2=185\)
(4) \(\mathbf x^T\begin{bmatrix}3&-2\\-2&5\end{bmatrix}\mathbf x\)
(5.1) \(Q(\mathbf x)=\mathbf x^TA\mathbf x\)(\(A=\begin{bmatrix}1&5\\5&1\end{bmatrix}\))
A 正交对角化为 \(A=PDP^T=\begin{bmatrix}1/\sqrt2&-1/\sqrt2\\1/\sqrt2&1/\sqrt2\end{bmatrix}\begin{bmatrix}6&0\\0&-4\end{bmatrix}\begin{bmatrix}1/\sqrt2&-1/\sqrt2\\1/\sqrt2&1/\sqrt2\end{bmatrix}^T\)
设 \(\mathbf x=P\mathbf y\),于是 \(Q(\mathbf x)=\cdots=\mathbf y^TD\mathbf y=6y_1^2-4y_2^2\)(\(\mathbf y=P^T\mathbf x\))
(6) 最大值是 8
(8)
- \(\forall\mathbf x\in\mathbb R^n,\mathbf x^TB^TB\mathbf x=(B\mathbf x)^T(B\mathbf x)=(B\mathbf x)\cdot(B\mathbf x)=\|B\mathbf x\|\ge0\),于是 \(B^TB\) 是半正定的
- \(\|B\mathbf x\|=0\),等价于 \(B\mathbf x=\mathbf 0\);B 可逆,蕴涵 B 各列线性无关,蕴涵方程 \(B\mathbf x=\mathbf 0\) 只有零解 \(\mathbf x=0\);\(\forall\mathbf 0\ne\mathbf x\in\mathbb R^n\),蕴涵 \(\|B\mathbf x\|\ne0\),又由 (8.1) 的结论有 \(\mathbf x^TB^TB\mathbf x=\|B\mathbf x\|>0\)
(9) A 是正定的,蕴涵 A 是对称的并且 \(\forall\lambda_i>0\),于是 A 正交对角化为 \(A=PDP^T\)
设 C 是以 \(\sqrt\lambda_1,\cdots,\sqrt\lambda_n\) 为对角线的对角矩阵,蕴涵 \(C^TC=C^2=D\)
设 \(B=PCP^T\),于是 \(B^TB=(PCP^T)^T(PCP^T)=PC^TP^TPCP^T=PC^TCP^T=PDP^T=A\),其中 B 是正定的
(10) \(\forall\mathbf x\in\mathbb R^n,\mathbf x^TA\mathbf x>0,\mathbf x^TB\mathbf x>0\),蕴涵 \(\mathbf x^TA\mathbf x+\mathbf x^TB\mathbf x=\mathbf x^T(A+B)\mathbf x>0\),所以 \(A+B\) 也是正定的
(11) \(A^{-1}=(PDP^{-1})^{-1}=PD^{-1}P^{-1}\),又由 A 的特征值是正的,\(A^{-1}\) 是特征值是 A 对应特征值的倒数,于是 \(A^{-1}\) 的特征值都是正的,蕴涵 \(A^{-1}\) 是正定的
3. 条件优化
无交叉乘积的二次型在 \(\mathbf x^T\mathbf x=1\) 的条件下很容易求得最大值和最小值,并且 \(\min\{\lambda_i\}\le Q(\mathbf x)\le\max\{\lambda_i\}\)
定理1
设 \(A\in\mathbb R^{n\times n}\) 是对称矩阵,而 \(m=\min\{\mathbf x^TA\mathbf x~:~\|\mathbf x\|=1\}, M=\max\{\mathbf x^TA\mathbf x~:~\|\mathbf x\|=1\}\),
可证得 \(m=\lambda_n, M=\max\{\lambda_i\}=\lambda_1\)
若 \(\mathbf u_n,\mathbf u_1\) 是分别对应于 \(\lambda_n,\lambda_1\) 的单位特征向量;那么 \(\mathbf u_n^TA\mathbf u_n=\lambda_n\),\(\mathbf u_1^TA\mathbf u_1=\lambda_1\)
换句话说,\(\mathbf u_n^TA\mathbf u_n=\lambda_n\le\mathbf x^TA\mathbf x\le \lambda_1=\mathbf u_1^TA\mathbf u_1\)
(注:对特征值进行降序排序,即小标越大对应的特征值越小;注意,对称矩阵具有 n 个实特征值)
证明:详见p422
注:计算最值时无需将 \(Q(\mathbf x)\) 表达为只包含 \(\mathbf y\) 的分量的形式;如求最大值时只需将 \(\mathbf x=\mathbf u_1\) 代入 \(Q(\mathbf x)\) 中即可
假设 A 正交对角化为 \(A=PDP^T\)
设 \(\mathbf x=P\mathbf y\),有 \(\mathbf x^TA\mathbf x=\mathbf y^TD\mathbf y\)
由于 P 是正交矩阵,蕴涵 \(\|\mathbf x\|=\|P\mathbf y\|=\|\mathbf y\|\),于是 \(\|\mathbf x\|=1\) 与 \(\|\mathbf y\|=1\)
那么 \(\max\{Q(\mathbf x):\mathbf x^T\mathbf x=1\}=\max\{Q(\mathbf x):\mathbf y^T\mathbf y=1\}\),进而 \(\max\{\mathbf x^TA\mathbf x:\mathbf x^T\mathbf x=1\}=\max\{\mathbf y^TD\mathbf y:\mathbf y^T\mathbf y=1\}\) 和 \(\min\{\mathbf x^TA\mathbf x:\mathbf x^T\mathbf x=1\}=\min\{\mathbf y^TD\mathbf y:\mathbf y^T\mathbf y=1\}\)
将 A 的特征值降序排序:\(\forall i=1..n-1,\lambda_i\ge\lambda_{i+1}\)
于是 \(\lambda_n=\lambda_n\sum\limits_{i=1}^ny_i^2\le\mathbf y^TD\mathbf y=\sum\limits_{i=1}^n\lambda_iy_i^2\le\lambda_1\sum\limits_{i=1}^ny_i^2=\lambda_1\)(即 \(\lambda_n\le\mathbf y^TD\mathbf y\le\lambda_1\),也就是说该二次型有上下界)
假设 \(\forall i=1..n\),\(\mathbf u_i\) 是 A 中对应于特征值 \(\lambda_i\) 的单位特征向量
- 令 \(\mathbf x=\mathbf u_1\),有 \(Q(\mathbf u_1)=\mathbf u_1^TA\mathbf u_1=\mathbf u_1^T(\lambda_1\mathbf u_1)=\lambda_1(\mathbf u_1^T\mathbf u_1)=\lambda_1\)
- 令 \(\mathbf x=\mathbf u_n\),有 \(Q(\mathbf u_n)=\mathbf u_n^TA\mathbf u_n=\mathbf u_n^T(\lambda_n\mathbf u_n)=\lambda_n(\mathbf u_n^T\mathbf u_n)=\lambda_n\)
这意味着不等式 \(\lambda_n\le\mathbf y^TD\mathbf y\le\lambda_1\) 的两端是二次型 \(\mathbf y^TD\mathbf y\) 紧凑上下界
最后,\(Q(\mathbf u_1)=\max\{Q(\mathbf x):\mathbf x^T\mathbf x=1\}=\lambda_1,Q(\mathbf u_n)=\min\{Q(\mathbf x):\mathbf x^T\mathbf x=1\}=\lambda_n\)
\(\blacksquare\)
例子
- 求 \(Q(\mathbf x)=9x_1^2+4x_2^2+3x_3^2\) 在限制条件 \(\mathbf x^T\mathbf x=1\) 下的最小值和最大值:由于 \(Q(\mathbf x)\ge3(x_1^2+x_2^2+x_3^2)=3,Q(\mathbf x)\le9(x_1^2+x_2^2+x_3^2)=9\),而 \(Q(1,0,0)=9,Q(0,0,1)=3\),于是 \(Q(\mathbf x)\) 的最小值和最大值分别为 \(3,9\)
- 假设 \(A=A=\begin{bmatrix}3&2&1\\2&3&1\\1&1&4\end{bmatrix}\),计算 \(\mathbf x^TA\mathbf x\) 在限制条件 \(\mathbf x^T\mathbf x=1\) 下的最大值,并求该最值点:A 的特征值为 \(6,3,1\),特征值 6 对应的单位特征向量为 \(\mathbf u_1=\begin{bmatrix}1/\sqrt3\\1/\sqrt3\\1/\sqrt3\end{bmatrix}\),于是该二次型的最大值是 \(Q(1/\sqrt3,1/\sqrt3,1/\sqrt3)=6\)
定理2
设 A,\(\lambda,\mathbf u\) 的排列顺序如 [定理1] 所述
1) 在限制条件 \(\mathbf x^T\mathbf x=1,\mathbf x^T\mathbf u_1=0\) 下,
有 \(\mathbf u_n^TA\mathbf u_n=\lambda_n\le\mathbf x^TA\mathbf x\le \lambda_2=\mathbf u_2^TA\mathbf u_2\)
2) 给定限制条件:\(\mathbf x^T\mathbf x=1\);对于所有 \(i<k\) 都有 \(\mathbf x^T\mathbf u_i=0\)
有 \(\mathbf u_n^TA\mathbf u_n=\lambda_n\le\mathbf x^TA\mathbf x\le \lambda_k=\mathbf u_k^TA\mathbf u_k\)
例子
- \(c=\max\{9x_1^2+4x_2^2+3x_3^2:\|\mathbf x\|=1,\mathbf x^T\mathbf u_1=0\}\)(其中 \(\mathbf u_1=(1,0,0)\)):由于 \(\mathbf u_1\) 是最大特征值 9 对应的特征向量,于是 \(c=4\)
- \(\max\{9x_1^2+4x_2^2+3x_3^2:\|\mathbf x\|=1,\mathbf x^T\mathbf u_1=0,\mathbf x^T\mathbf u_2=0\}=3\)
- \(q(x,y)=xy\) 在 \(4x^2+9y^2=36\) 下的最大值
- 由于 \(4x^2+9y^2=36\) 等价于 \((x/3)^2+(y/2)^2=1\),构造变量代换 \(x_1=x/3,x_2=y/2\)(相应的 \(x=3x_1,y=2x_2\))
- 于是 \(\max\{q(x,y):4x^2+9y^2=36\}=\max\{q(3x_1,2x_2):\mathbf x^T\mathbf x=1\}\)
- 而 \(q(x,y)=q(3x_1,2x_2)=6x_1x_2=\mathbf x^TA\mathbf x\)(其中 \(A=\begin{bmatrix}0&3\\3&0\end{bmatrix}\))
- A 的特征值为 \(3,-3\),特征值 3 对应的单位特征向量为 \((1/\sqrt2,1/\sqrt2)\);于是 \(q(x,y)\) 的最大值为 3,解为 \(x=3x_1=3/\sqrt2,y=2x_2=2/\sqrt2\)
总结
- 二次型条件最值:若 A 是对称矩阵,那么二次型 \(Q(\mathbf x)=\mathbf x^TA\mathbf x\) 在 \(\mathbf x^T\mathbf x=1\) 的条件下的最大值和最小值分别为 \(\max\{Q(\mathbf x):\mathbf x^T\mathbf x=1\}=Q(\mathbf u_1)=\lambda_1,\min\{Q(\mathbf x):\mathbf x^T\mathbf x=1\}=Q(\mathbf u_n)=\lambda_n\)(\(\forall i=1..n-1,\lambda_i\ge\lambda_{i+1}\);\(\mathbf u_i\) 对应于 A 的 \(\lambda_i\) 的单位特征向量);若 \(\mathbf x\in\mathbb R^2\),从图像上看,二次型的最值对应于曲面 \(z=Q(x_1,x_2)\) 与柱面 \(x_1^2+x_2^2=1\) 的交线中的点集中 z 坐标的最值
- \(\max\{Q(\mathbf x):\mathbf x^T\mathbf x=1,\forall i=1..l-1,\mathbf x^T\mathbf u_i=0\}=Q(\mathbf u_l)=\lambda_l\)
- \(\min\{Q(\mathbf x):\mathbf x^T\mathbf x=1,\forall i=1..r+1,\mathbf x^T\mathbf u_i=0\}=Q(\mathbf u_r)=\lambda_r\)
- 表达单位向量的其他形式:\(\|\mathbf x\|=1,\|\mathbf x\|^2=1,\mathbf x^T\mathbf x=1,\sum\limits_{i=1}^nx_i^2=1\)
练习
- 设 \(Q(\mathbf x)=3x_1^2+3x_2^2+2x_1x_2\),求 Q 的不含交叉乘积项的形式
- 对 (1) 中的 Q,计算 \(\max\{Q(\mathbf x):\mathbf x^T\mathbf x=1\}\)(并且给出它的解)
- 思考题
- 在 \(\sum\limits_{i=1}^nx_i^2=1\) 条件下 \(Q(\mathbf x)=\mathbf x^TA\mathbf x\) 的最值如何计算?
- 在 \(\sum\limits_{i=1}^n(c_ix_i)^2=1\) 条件下 \(Q(\mathbf x)=\mathbf x^TA\mathbf x\) 的最值如何计算?
- 上述的最值点如何计算?
- 根据本节的知识证明[7.2二次型定理]
提示
(1) \(Q(\mathbf x)=3x_1^2+3x_2^2+2x_1x_2=\mathbf x^T\begin{bmatrix}3&1\\1&3\end{bmatrix}\mathbf x\)
A 正交对角化为 \(A=PDP^T\),设 \(\mathbf y=P\mathbf x\),有 \(Q(\mathbf x)=\mathbf y^TD\mathbf y=4y_1^2+2y_2^2\)(其中 \(D=\begin{bmatrix}4&0\\0&2\end{bmatrix},P=\begin{bmatrix}1/\sqrt2&-1/\sqrt2\\1/\sqrt2&1/\sqrt2\end{bmatrix}\))
(2) \(\max\{Q(\mathbf x):\mathbf x^T\mathbf x=1\}=Q(1/\sqrt2,1/\sqrt2)=4\)
4. 奇异值分解
5.3 和 7.1 的对角化定理在很多应用中均很重要,但并非所有矩阵均可对角化
但是对于所有矩阵 \(A\in\mathbb R^{m\times n}\),都有奇异值分解 \(A=QDP^{-1}\),这是线性代数应用中最有用的矩阵分解
例子
- 假设 \(A=\begin{bmatrix}4&11&14\\8&7&-2\end{bmatrix}\),那么 \(\mathbf x\mapsto A\mathbf x\) 将 \(\mathbb R^3\) 上的单位球 \(\{\mathbf x:\mathbf x\in\mathbb R^3,\|\mathbf x\|=1\}\) 映上到 \(\mathbb R^2\),计算这个 \(\max\{\|A\mathbf x\|:\mathbf x\in\mathbb R^3,\|\mathbf x\|=1\}\)
- \(\|A\mathbf x\|^2=(A\mathbf x)\cdot(A\mathbf x)=(A\mathbf x)^TA\mathbf x=\mathbf x^T(A^TA)\mathbf x\),其中 \(A^TA\) 是个对称矩阵
- 由于 \(\|A\mathbf x\|^2=\mathbf x^T(A^TA)\mathbf x\) 恰好是二次型,求得 \(A^TA\) 的特征值 \(360,90,0\),对应的单位特征向量为 \(\mathbf v_1=\begin{bmatrix}1/3\\2/3\\2/3\end{bmatrix},\mathbf v_2=\begin{bmatrix}-2/3\\-1/3\\2/3\end{bmatrix},\mathbf v_3=\begin{bmatrix}2/3\\-2/3\\1/3\end{bmatrix}\);\(\|A\mathbf x\|^2\) 的最大值为 \(360\)
- 于是 \(\|A\mathbf x\|\) 的最大值是 \(\sqrt{300}=10\sqrt3\),
奇异值
令 \(A\in\mathbb R^{m\times n}\),那么对称矩阵 \(A^TA\in\mathbb R^{n\times n}\) 可对角化,
\(A^TA\) 的特征值及其对应的单位特征向量分别为 \(\lambda_1,\dots,\lambda_n\),\(\mathbf v_1,\dots,\mathbf v_n\)(有时按 \(\lambda_i\) 的大小降序)
那么对于所有 \(i\le n\),有 \(\|A\mathbf v_i\|^2=(A\mathbf v_i)^T(A\mathbf v_i)=\mathbf v_i^T(A^TA\mathbf v_i)=\mathbf v_i^T(\lambda_i\mathbf v_i)=\lambda_i\mathbf v_i^T\mathbf v_i=\lambda_i\),因而 \(\lambda_i\ge0\)
定义 A 的第 i 个奇异值为 \(A^TA\) 的第 i 个特征值的平方根,记为 \(\sigma_i=\|A\mathbf v_i\|\)(对于所有 \(1\le i\le n\))
假设 \(A\in M_{m\times n}\),
根据[7.2练习8],\(A^TA\) 是半正定的,设 \(\lambda_1,\cdots,\lambda_n\) 是 \(A^TA\) 的特征值,\(\mathbf v_1,\cdots,\mathbf v_n\) 是 \(A^TA\) 对应特征值的单位正交特征向量(其中 \(\lambda_1\ge\cdots\ge\lambda_n\ge0\))
\(\forall i=1..n\) 有 \(\|A\mathbf v_i\|^2=(A\mathbf v_i)\cdot(A\mathbf v_i)=(A\mathbf v_i)^T(A\mathbf v_i)=\mathbf v_i^TA^TA\mathbf v_i=\lambda_i\),即 \(\|A\mathbf v_i\|^2=\lambda_i\)
于是 \(\|A\mathbf v_i\|=\sqrt{\lambda_i}\)
\(\blacksquare\)
定理
假设 \(\{\mathbf v_1,\dots,\mathbf v_n\}\) 是包含 \(A^TA\) 的特征向量的 \(\mathbb R^n\) 上的单位正交基(\(\lambda_i\) 降序排序)
若 A 有 r 个非零奇异值,那么 \(\{A\mathbf v_1,\dots,A\mathbf v_r\}\) 是 \(\text{Col}A\) 的一个正交基,且 \(\text{rank}A=r\)
证明参见 p429
- \(\forall i=1..r,A\mathbf v_i\in\text{Col}A\)
- 正交性:\(\forall i\ne j,(A\mathbf v_i)\cdot(A\mathbf v_j)=\mathbf v_i^TA^TA\mathbf v_j=\mathbf v_i^T(\lambda_j\mathbf v_j)=\lambda_j(\mathbf v_i\cdot\mathbf v_j)=0\),即 \(A\mathbf v_1,\cdots,A\mathbf v_n\) 是相互正交的,蕴涵 \(A\mathbf v_1,\cdots,A\mathbf v_r\) 是相互正交的
- 线性无关性:\(\forall i=1..r,\|A\mathbf v_i\|\ne0\),蕴涵 \(A\mathbf v_i\ne\mathbf 0\);于是方程 \(\sum\limits_{i=1}^rc_iA\mathbf v_i=\mathbf 0\),于是 \(A\mathbf v_1,\cdots,A\mathbf v_r\) 是线性无关的(存疑)
- 张成性:\(\text{Span}\{A\mathbf v_1,\cdots,A\mathbf v_r\}\subset\text{Col}A\),...
\(\blacksquare\)
A 的 \(\Sigma\) 矩阵
秩为 r 的矩阵 \(A\in M_{m\times n}\) 的 \(\Sigma_A\in M_{m\times n}\) 矩阵形如
\(\Sigma_A=\begin{bmatrix}D&\mathbf 0\\\mathbf 0&\mathbf 0\end{bmatrix}\)(其中 \(D\in M_{r\times r}\),\(r\le\min\{m,n\}\);D 的对角线元素为 A 的前 i 个奇异值)
奇异值分解(SVD)
秩为 r 的矩阵 \(A\in\mathbb R^{m\times n}\) 可以分解为 \(A=U\Sigma V^T\)
其中 \(\Sigma\in\mathbb R^{m\times n}\)
正交矩阵 \(U\in\mathbb R^{m\times m}\),\(V^T\in\mathbb R^{n\times n}\) 分别称为 A 的 左奇异分量,右奇异分量(不由 A 唯一确定)
满足上式的 V 和 U:
\(V=[\mathbf v_1,\dots,\mathbf v_n]\) 是 \(A^TA\) 的特征向量构造的正交矩阵(\(\lambda_i\) 有时降序)
\(U=[\mathbf u_1,\dots,\mathbf u_m]\);对于 \(i\le r\),\(\mathbf u_i=\frac 1{\sigma_i}A\mathbf v_i\)
证明详见 p430
假设 \(A^TA\) 的特征值为 \(\lambda_1,\cdots,\lambda_n\)(满足 \(\lambda_1\ge\cdots\ge\lambda_n\ge0\)),对应的单位正交特征向量为 \(\mathbf v_1,\cdots,\mathbf v_n\);并且 \(A^TA\) 有 r 个非零特征值(即 A 有 r 个非零奇异值)
设 \(U\in M_{m\times m}\) 为 \(U=[\frac1{\sigma_1}A\mathbf v_1\cdots\frac1{\sigma_r}A\mathbf v_r~~\mathbf 0\cdots\mathbf 0]\),即 \(\mathbf u_i=\begin{cases}\frac1{\sigma_i}A\mathbf v_i&i=1..r\\\mathbf 0&i=r+1..m\end{cases}\)
设 \(\Sigma_A\in M_{m\times n}\) 为 \(\Sigma_A=\begin{bmatrix}D&\mathbf 0\\\mathbf 0&\mathbf 0\end{bmatrix}=\begin{bmatrix}\sigma_1\\&\ddots&&\mathbf 0\\&&\sigma_r\\&\mathbf 0&&\mathbf 0\end{bmatrix}\)(\(\Sigma_A=[\mathbf s_1\cdots\mathbf s_n]\))
于是 \(U\Sigma_A=[U\mathbf s_1\cdots U\mathbf s_n]=[A\mathbf v_1\cdots A\mathbf v_r~~\mathbf 0\cdots\mathbf 0]\)
设 \(V\in M_{n\times n}\) 为 \(V=[\mathbf v_1\cdots\mathbf v_n]\)(或者 \(V=[\mathbf v_1\cdots\mathbf v_r~~\mathbf 0\cdots\mathbf 0]\)?)
由于 \(\forall i=r+1..n,\|A\mathbf v_i\|=\|\lambda_i\mathbf v_i\|=0\),蕴涵 \(A\mathbf v_i=\mathbf 0\)
于是 \(AV=[A\mathbf v_1\cdots A\mathbf v_n]=[A\mathbf v_1\cdots A\mathbf v_r~~\mathbf 0\cdots\mathbf 0]\)
所以 \(U\Sigma_A=AV\),又由 \(V^T=V^{-1}\),于是 \(A=AVV^{-1}=U\Sigma_AV^{-1}=U\Sigma_AV^T\)
\(\blacksquare\)
奇异值分解算法
- 将 \(A^TA\in\mathbb R^{n\times n}\) 正交对角化,求得 \(A^TA\) 的特征值(进而得到 奇异值),及其对应的单位特征向量(或者说 单位正交基 或 正交矩阵 V)
- \(A^TA\) 的特征值特征值降序排列,正交矩阵 \(V\in\mathbb R^{n\times n}\) 也作相应交换;用特征值的平方根(奇异值)构造 \(\Sigma\in\mathbb R^{m\times n}\)
- 构造 \(U=[\mathbf u_1,\dots,\mathbf u_m]\),其中对于\(i\le \text{rank}(A^TA)=r\) 有 \(\mathbf u_i=\frac 1{\sigma_i}A\mathbf v_i\);若 \(r<m\),通过方程组 \(\begin{bmatrix}\mathbf u_1^T\\\vdots\\\mathbf u_r^T\end{bmatrix}\mathbf x=\mathbf 0\)(\(x\in\mathbb R^m\))求解 \(\{\mathbf u_1,\dots,\mathbf u_r\}\) 的正交补的基,再通过 [格拉姆-施密特] 以及标准化得到对应的标准正交基,该标准正交基的向量构成 U 剩余的向量
- 最后得到 \(A=U\Sigma V^T\)
练习:求 \(\begin{bmatrix}4&11&14\\8&7&-2\end{bmatrix}\),\(\begin{bmatrix}1&-1\\-2&2\\2&-2\end{bmatrix}\) 的奇异值分解
奇异值分解的应用
- 条件数 \(\frac{\sigma_1}{\sigma_n}\)
- 基本子空间的基
- 奇异值分解的简化和 A 的伪逆
- 最小二乘解
可逆矩阵定理(最后补充)
设 \(A\in\mathbb R^{n\times n}\),A 可逆,等价于:
- \((\text{Col}A^)\bot=\{\mathbf 0\}\)
- \((\text{Nul}A^)\bot=\mathbb R^n\)
- \(\text{Row}A=\mathbb R^n\)
- A 有 n 个非零的奇异值
奇异值分解的简化和 A 的伪逆
假设 \(A\in M_{m\times n}\) 的秩数为 r
对矩阵分块 \(U=[U_r~~U_{m-r}]\),\(V=[V_r~~V_{n-r}]\)(其中 \(U_r=[\mathbf u_1\dots\mathbf u_r]=[\frac{A\mathbf v_1}{\|A\mathbf v_1\|}\cdots\frac{A\mathbf v_r}{\|A\mathbf v_r\|}], V_r=[\mathbf v_1\dots\mathbf v_r]\))
那么 \(A=U_rDV_r^T\)
A 的伪逆(缪尔-彭罗斯逆)记为 \(A^+=V_rD^{-1}U_r^T\)
\(A=U\Sigma_AV^T=[U_r~~U_{m-r}]\begin{bmatrix}D&0\\0&0\end{bmatrix}\begin{bmatrix}V_r^T\\V_{n-r}^T\end{bmatrix}=U_rDV_r^T\)
\(\blacksquare\)
最小二乘解
方程 \(A\mathbf x=\mathbf b\) 的一个最小二乘解为 \(\hat x=A^+\mathbf b\)
根据[6.5最小二乘解定理],方程 \(A\mathbf x=\mathbf b\) 的最小二乘解集等价于 \(A\mathbf x=\text{proj}_{\text{Col}A}\mathbf b\) 的解集
\(A(A^+\mathbf b)=(AA^+)\mathbf b=U_rU_r^T\mathbf b\)
根据[7.4定理],有 \(U_r\) 的各列是 \(\text{Col}A\) 的正交基,而 \(U_r\) 的各列是单位向量,于是 \(U_r\) 的各列是 \(\text{Col}A\) 的单位正交基,从而 \(U_rU_r^T\mathbf b=\text{proj}_{\text{Col}A}\mathbf b\)
于是,方程 \(A\mathbf x=\mathbf b\) 的一个最小二乘解为 \(\hat x=A^+\mathbf b\)
\(\blacksquare\)
总结
- 奇异值:假设 \(A\in M_{m\times n}\),那么 \(A^TA\) 是半正定的,\(\lambda_1,\cdots,\lambda_n\) 和 \(\mathbf v_1,\cdots,\mathbf v_n\) 是 \(A^TA\) 的特征值及其对应的单位正交特征向量(满足 \(\lambda_1\ge\cdots\ge\lambda_n\ge0\)),那么 A 的奇异值定义为 \(\forall i=1..n,\sigma_i=\|A\mathbf v_i\|=\sqrt{\lambda_i}\)
- 定理:假设 \(A\in M_{m\times n}\),\(A^TA\) 的单位正交基为 \(\{\mathbf v_1,\cdots,\mathbf v_n\}\)(对应特征值满足 \(\lambda_1\ge\cdots\ge\lambda_n\)),若 A 有 r 个非零奇异值,那么 \(\{A\mathbf v_1,\cdots,A\mathbf v_r\}\) 是 \(\text{Col}A\) 的一个正交基(蕴涵 \(\text{rank}A=r\))
- 奇异值分解(SVD):假设 \(A\in M_{m\times n}\),A 的奇异值分解为 \(A=U\Sigma_A V^T\)
- \(U\in M_{m\times m}\),且 \(U=[\frac1{\sigma_1}A\mathbf v_1\cdots\frac1{\sigma_r}A\mathbf v_r~~\mathbf 0\cdots\mathbf 0]\),即 \(\mathbf u_i=\begin{cases}\frac1{\sigma_i}\frac{A\mathbf v_i}{\sigma_i}=\frac{A\mathbf v_i}{\|A\mathbf v_i\|}=\frac{A\mathbf v_i}{\sqrt{\lambda_i}}&i=1..r\\\mathbf 0&i=r+1..m\end{cases}\)(U 的各列称为左奇异向量)
- \(\Sigma_A\in M_{m\times n}\),且 \(\Sigma_A=\begin{bmatrix}D&\mathbf 0\\\mathbf 0&\mathbf 0\end{bmatrix}=\begin{bmatrix}\sigma_1\\&\ddots&&\mathbf 0\\&&\sigma_r\\&\mathbf 0&&\mathbf 0\end{bmatrix}\)(与 A 唯一对应)
- \(V\in M_{n\times n}\),且 \(V=[\mathbf v_1\cdots\mathbf v_n]\)(V 的各列称为右奇异向量)
- 其中 \(A^TA\) 的特征值为 \(\lambda_1,\cdots,\lambda_n\)(满足 \(\lambda_1\ge\cdots\ge\lambda_n\ge0\)),对应的单位正交特征向量为 \(\mathbf v_1,\cdots,\mathbf v_n\);\(A^TA\) 有 r 个非零特征值(即 A 有 r 个非零奇异值)
- 奇异值分解算法:假设 \(A\in M_{m\times n}\),(1) 将 \(A^TA\) 正交对角化为 \(A^TA=VD'V^T\),(2) 取 \(D'\) 左上角的 \(r\times r\) 的矩阵并且对对角线元素开根号,得到 D,进而得到 \(\Sigma_A\)(3) 计算 \(AV\) 的前 r 列的单位向量,然后右边补齐一些零向量得到 U,(4) 于是 \(A=U\Sigma_A V\)
- 可逆矩阵定理(续):假设 A 为 \(n\times n\) 可逆矩阵,当且仅当:(1) \((\text{Col}A)^\bot=\{\mathbf 0\}\),(2) \((\text{Nul}A)^\bot=\mathbb R^n\),(3) \(\text{Row}A=\mathbb R^n\),(4) A 有 n 个非零的奇异值
- 简化的奇异值分解,伪逆(缪尔-彭罗斯逆):假设 \(A\in M_{m\times n}\) 的秩数为 r,对 A 的奇异值分解进行分块 \(U=[U_r~~U_{m-r}],V=[V_r~~V_{n-r}]\)(\(U_r\in M_{m\times r},V_r\in M_{n\times r}\)),那么 \(A=U_rDV_r^T\);定义 A 的缪尔-彭罗斯逆为 \(A^+=V_rD^{-1}U_r^T\)(满足 \(AA^+=(U_rDV_r^T)(V_rD^{-1}U_r^T)=U_rU_r^T\))
二级结论
- 方程 \(A\mathbf x=\mathbf b\) 的一个最小二乘解为 \(\hat x=A^+\mathbf b\)
练习
- 矩阵 A 与 \(A^T\) 的奇异值之间有什么关系?
- 证明:存在一个正交阵 Q 使得,\(A^TA=Q^T(A^TA)Q\)