0.预备知识
本章介绍初等线性代数的概念,数学归纳法,一些多项式结论(代数基本定理,长除法,langrange插值),矩阵的多项式函数
1. 函数与集合
函数与集合
假设 \(\mathscr X\) 和 \(\mathscr Y\) 是集合,函数定义为从定义域(domain) \(\mathscr X\) 到上域或陪域(codomain)的映射,记为 \(f:\mathscr X\to\mathscr Y\)
换句话说,\(\forall x\in\mathscr X,f(x)\in\mathscr Y\)
\(f:\mathscr X\to\mathscr Y\) 的值域(range)定义为 \(\text{ran}f=\{f(x):~x\in\mathscr X\}=\{y\in\mathscr Y:~\exists x,y=f(x)\}\)
- 函数 f 称为映上的(onto),若 f 的定义域等于值域 \(\text{ran}f=\mathscr Y\)
- 函数 f 称为一对一的(one to one),若 \(f(x_1)=f(x_2)\implies x_1=x_2\)(即 \(x_1\ne x_2\implies f(x_1)\ne f(x_2)\))
一个集合的元素 \(\{x_1,\cdots,x_k\}\) 是相异的(distinct),若 \(\forall i,j=1..k,i\ne j\) 蕴涵 \(x_i\ne x_j\)
2. 纯量
记实数集为 \(\mathbb R\),复数集为 \(\mathbb C\),实数和复数都称为纯量(scalar)或标量
3. 矩阵
矩阵
一个 \(m\times n\) 矩阵(matrix)是指由实数或复数组成的一个矩阵的阵列:\(A=[a_{ij}]=\begin{bmatrix}a_{11}&a_{12}&\cdots&a_{1n}\\a_{21}&a_{22}&\cdots&a_{2n}\\\vdots&\vdots&&\vdots\\a_{m1}&a_{m2}&\cdots&a_{mn}\end{bmatrix}\)
A 位于 \((i,j)\) 处的元素(entry)是 \(a_{ij}\)
两个矩阵相等,若它们的相同的大小(行数和列数都相等),并且对应的元素相等
一个 \(m\times n\) 矩阵为方阵,若 \(m=n\),即该矩阵为 \(n\times n\) 矩阵
矩阵集合:
- 元素为复数或实数的所有 \(m\times n\) 矩阵的集合,记为 \(\mathbf M_{m\times n}(\mathbb C)\) 或 \(\mathbf M_{m\times n}(\mathbb R)\),简记为 \(\mathbf M_{m\times n}\)
- 元素为复数或实数的所有 \(n\times n\) 方阵的集合,记为 \(\mathbf M_n(\mathbb C)\) 或 \(\mathbf M_n(\mathbb R)\),简记为 \(\mathbf M_n\)
行与列
\(\forall i=1..m\),矩阵 A 的第 i 行(row)是 \(1\times n\) 矩阵,即 \([a_{i1}~~a_{i2}\cdots a_{in}]\)
\(\forall j=1..n\),矩阵 A 的第 j 列(column)是 \(m\times 1\) 矩阵,即 \(\mathbf a_j=\begin{bmatrix}a_{1j}\\a_{2j}\\\vdots\\a_{mj}\end{bmatrix}\)
另外,矩阵 \(A=[a_{ij}]\) 常被记为 \(A=[\mathbf a_1~~\mathbf a_2\cdots\mathbf a_n]\)
矩阵加法,标量乘法
加法:若 \(A=[a_{ij}]\) 和 \(B=[b_{ij}]\) 都是 \(m\times n\) 矩阵,那么 \(A+B\) 也是 \(m\times n\) 矩阵,并且 \(A+B=[a_{ij}+b_{ij}]\)
标量乘法:若 \(A\in\mathbf M_{m\times n},c\in\mathbb C\),那么 \(cA=[ca_{ij}]\in\mathbf M_{m\times n}\) 就是用 c 取遍 A 的每个元素得到的矩阵
零矩阵是元素全为零的矩阵,记为 \(0=[0]\)
公理:假设 \(A,B\in\mathbf M_{m\times n},c,d\in\mathbb C\),那么:
- 加法交换律 \(A+B=B+A\)
- 加法结合律 \(A+(B+C)=(A+B)+C\)
- 加法单位元 \(A+0=A=0+A\)
- 纯量乘法与矩阵加法的分配律 \(c(A+B)=cA+cB\)
- 纯量乘法与复数加法的分配律 \((c+d)A=cA+dA\)
- 纯量乘法与复数乘法的结合律 \(c(dA)=(cd)A=d(cA)\)
矩阵乘法
若 \(A=[a_{ij}]\in\mathbf M_{m\times r},B=[b_{ij}]\in\mathbf M_{r\times n}\),那么矩阵乘积 \(AB=[c_{ij}]\in M_{m\times n}\),其中 \(c_{ij}=\sum\limits_{k=1}^ra_{ik}b_{kj}\)
另外,若 \(B=[\mathbf b_1\cdots\mathbf b_n]\),那么 \(AB=[A\mathbf b_1\cdots A\mathbf n]\)
\(A,B\in\mathbf M_n\) 可交换(commute),若 \(AB=BA\)
\(AB=AC\) 不蕴含 \(B=C\)
定理:假设 \(A,B,C\) 是适当大小的矩阵,\(c\in\mathbb C\),那么:
- 乘法结合律 \(A(BC)=(AB)C\)
- 左乘法与加法的分配律 \(A(B+C)=AB+AC\)
- 右乘法与加法的分配律 \((A+B)C=AC+BC\)
- 纯量乘法与乘法的结合律 \((cA)B=c(AB)=A(cB)\)
矩阵概念
(1) 单位阵:\(n\times n\) 单位阵定义为 \(I_n=\begin{bmatrix}1&0&\cdots&0\\0&1&\cdots&0\\\vdots&\vdots&&\vdots\\0&0&\cdots&1\end{bmatrix}\in\mathbf M_n\);也就是说,\(I_n=[\delta_{ij}]\),其中 \(\delta_{ij}=\begin{cases}1&i=j\\0&i\ne j\end{cases}\)
\(\forall A\in\mathbf M_{m\times n}\),\(AI_n=A=I_mA\)
(注:若可以通过上下文明确单位阵的大小,那么 \(I_n\) 简记为 I;\(\delta_{ij}\) 是 kronecker 符号)
(2) 三角阵:假设 \(A=[a_{ij}]\in\mathbf M_n\)
- A 是上三角的,若 \(\forall i>j,a_{ij}=0\)
- A 是下三角的,若 \(\forall i<j,a_{ij}=0\)
- A 是严格上三角的,若 \(\forall i\ge j,a_{ij}=0\)
- A 是严格下三角的,若 \(\forall i\le j,a_{ij}=0\)
- 上述矩阵统称为三角阵
(3) 对角阵:\(A=[a_{ij}]\in\mathbf M_n\) 是对角的(diagonal),若 \(\forall i\ne j,a_{ij}=0\)(也就是说,A 的任何非零元素都在 A 的主对角线上);记为 \(\text{diag}(\lambda_1,\cdots,\lambda_n)\)
纯量矩阵指的是形如 \(\text{diag}(c,\cdots,c)=cI_n\) 的对角阵
(4) 超对角线,次对角线:假设 \(A=[a_{ij}]\in\mathbf M_n\)
- A 的第 k 条超对角线包含 \(a_{1,k+1},a_{2,k+2},\cdots,a_{n-k,n}\) 一共 \(n-k\) 个元素
- A 的第 k 条次对角线变换 \(a_{k+1,1},a_{k+2,2},\cdots,a_{n,n-k}\) 一共 \(n-k\) 个元素
- 注:描述超对角线或次对角线时(并未指明条数),通常指的是第 1 条超对角线或第 1 条次对角线
(5) 三对角阵,双对角阵:假设 \(A=[a_{ij}]\in\mathbf M_n\)
- A 是三对角的,若 \(\forall|i-j|\ge2,a_{ij}=0\)
- 三对角阵 A 是双对角的,若超对角线或次对角线的元素均为 0
(6) 子矩阵,主子矩阵:假设 \(A=[a_{ij}]\in\mathbf M_n\)
- A 的子矩阵是指 A 的某些不重复的行与某些不重复的列的交点处的元素组成的矩阵
- A 的 \(k\times k\) 主子矩阵是对于 \(i_1<\cdots<i_k\),A 的第 \(i_1,\cdots,i_k\) 行与第 \(i_1,\cdots,i_k\) 列的交点处的元素组成的子矩阵
- A 的 \(k\times k\) 首主子矩阵是 A 的第 \(1,\cdots,k\) 行与 \(1,\cdots,k\) 列的交点处的元素组成的矩阵
- A 的 \(k\times k\) 尾主子矩阵是 A 的第 \(n-k+1,\cdots,n\) 行与 \(n-k+1,\cdots,n\) 列的交点处的元素组成的矩阵
(7) 逆矩阵:\(A\in\mathbf M_n\) 是可逆的,若 \(\exists B\in\mathbf M_n,AB=I_n=BA\),其中方阵 B 称为 A 的逆, B 记作 \(A^{-1}\)(因为 A 的逆是唯一的,如果 A 的逆存在)
若 A 没有逆,那么称 A 是不可逆的
另外,\(AB=I_n\),当且仅当 \(BA=I_n\)(参见[2.2定理19],[3.1例8])
(8) 矩阵的乘幂:假设 \(A\in\mathbf M_n\),定义 \(A^k=\begin{cases}I_n&k=0\\A=\underbrace{A\cdots A}_{k次}&k\ge1\end{cases}\)
假设 A 可逆,定义 \(A^{-k}=(A^{-1})^k\)
假设 \(A,B\) 是适当大小的矩阵,\(j,k\in\mathbb Z,c\in\mathbb C\),那么:
- \(A^jA^k=A^{j+k}=A^kA^j\)
- \((A^{-1})^{-1}=A\)
- \((A^j)^{-1}=A^{-j}\)
- \(c\ne0\) 蕴涵 \((cA)^{-1}=c^{-1}A^{-1}\)
- \((AB)^{-1}=B^{-1}A^{-1}\)
(9) 转置矩阵:\(A=[a_{ij}]\in\mathbf M_{m\times n}\) 的转置(transpose)是矩阵 \(A^T=[b_{ij}]\in\mathbf M_{m\times n}\),满足 \([b_{ij}]=[a_{ji}]\)
性质:假设 \(A,B\) 是适当大小的矩阵,\(c\in\mathbb C\),那么:
- \((A^T)^T=A\)
- \((A\pm B)^T=A^T\pm B^T\)
- \((cA)^T=cA^T\)
- \((AB)^T=B^TA^T\)
- 若 A 可逆,那么 \((A^T)^{-1}=(A^{-1})^T\),记 \(A^{-T}=(A^{-1})^T\)
(10) 共轭矩阵:\(A=[a_{ij}]\in\mathbf M_{m\times n}\) 的共轭(conjugate)是矩阵 \(\overline A=[b_{ij}]\in\mathbf M_{m\times n}\),满足 \([b_{ij}]=[\overline{a_{ij}}]\)
从而 \(\overline{(\overline A)}=A\),\(\overline{A+B}=\overline A+\overline B\),\(\overline{AB}=\overline A~\overline B\)
若 A 是实矩阵,那么 \(A=\overline A\)
(11) 共轭转置矩阵:\(A\in\mathbf M_{m\times n}\) 的共轭转置是 \(A^*=\overline{A^T}=(\overline A)^T\in\mathbf M_{n\times m}\),它位于 \((i,j)\) 处的元素是 \(\overline{a_{ji}}\)
若 A 是实矩阵,那么 \(A^*=A^T\)
矩阵的共轭转置也称为它的伴随(adjoint)
性质:假设 \(A,B\) 是适当大小的矩阵,\(c\in\mathbb C\),那么:
- I_n^*=I_n
- \(0_{m\times n}^*=0_{m\times n}\)
- \((A^*)^*=A\)
- \((A\pm B)^*=A^*\pm B^*\)
- \((cA)^*=\overline cA^*\)
- \((AB)^*=B^*A^*\)
- 若 A 可逆,那么 \((A^*)^{-1}=(A^{-1})^*\),记 \(A^{-*}=(A^{-1})*T\)
(12) 特殊类型的矩阵:假设 \(A\in\mathbf M_n\)
- 若 \(A^*=A\),那么 A 是 Hermite 的(Hermitain);若 \(A^*=-A\),那么 A 是斜 Hermite 的(skew Hermitain)
- 若 \(A^T=A\),那么 A 是对称的(symmetric);若 \(A^T=-A\),那么 A 是斜对称的(skew symmetric)
- 若 \(A^*A=I_n\),那么 A 是酉的(unitary),若 A 是实矩阵且 \(A^*A=I_n\),那么 A 是实正交的(real orthogonal)
- 若 \(A^*A=AA^*\),那么 A 是正规的(normal)
- 若 \(A^2=I_n\),那么 A 是一个对合(involution)矩阵
- 若 \(A^2=A\),那么 A 是一个幂等(idempotent)阵
- 若 \(\forall k\in\mathbb Z^+,A^k=0\),那么 A 是幂零的(nilpotent)
(13) 迹:\(A\in\mathbf M_n\) 的迹(trace)是 A 的对角元素之和,记作 \(\text{tr}A=\sum\limits_{i=1}^na_{ii}\)
性质:假设 \(A,B\) 是适当大小的矩阵,\(c\in\mathbb C\),那么:
- \(\text{tr}(cA\pm B)=c~\text{tr}A\pm\text{tr}B\)
- \(\text{tr}A^T=\text{tr}A\)
- \(\text{tr}\overline A=\overline{\text{tr}A}\)
- \(\text{tr}A^*=\overline{\text{tr}A}\)
- 若 \(A=[a_{ij}]\in\mathbf M_{m\times n},B=[b_{ij}]\in\mathbf M_{n\times m}\),那么 \(\text{tr}AB=\text{tr}BA\)(推论:\(\text{tr}ABC=\text{tr}CAB=\text{tr}BCA\),但不一定等于 \(\text{tr}CBA\) 或 \(\text{tr}ACB\) 或 \(\text{tr}BAC\))