1 线性代数
矩阵合同
在线性代数,特别是二次型理论中,常常用到矩阵间的合同关系。两个矩阵 A 和 B 是合同的,是指如果有同数域上的可逆矩阵 P ,使得 $$ A=P^{\mathrm{T}} B P $$
- 合同关系是等价关系。
- 合同类矩阵具有相等的秩和正惯性指数,秩和正惯性指数是合同关系下的完全不变量,即如果两个矩阵合同等价于他们的秩和正惯性指数相等。
- 每个对称矩阵都合同于一个对角矩阵,后者称为一个标准形。
正定性
一个 n \times n 的实对称矩阵 M 是正定的,当且仅当对于所有的非零、实系数向量 \mathbf{z} ,都有 \mathbf{z}^T M \mathbf{z}>0 。
M 是半正定矩阵当且仅当对于所 有非零向量 \mathbf{z} \in \mathbb{R}^n (或 \mathbf{z} \in \mathbb{C}^n ),都有 z^* M z \geq 0 。(*表示共轭转置) M 是半负定矩阵当且仅当对于 所有非零向量 \mathbf{z} \in \mathbb{R}^n (或 \mathbf{z} \in \mathbb{C}^n ),都有 z^* M z \leq 0 。
- 若 M 为半正定矩阵,可以记作 M \geq 0 。如果 M 是正定矩阵,可以记作 M>0 。
- 如果 M 、 N 是正定阵,那么 M+N 、 M N M 与 N M N 都是正定 的。如果 M N=N M ,那么 M N 仍是正定阵。
- 如果 M, N \geq 0 为实系数矩阵,则 \operatorname{tr}(M N) \geq 0 。
矩阵相似
在线性代数中,相似关系是两个矩阵之间的一种等价关系。两个 n \times n 矩阵 A 与 B 为相似矩阵当且仅当存在一个 n \times n 的可逆矩阵 P ,使得:
$$ P^{-1} A P=B $$ 判断两个矩阵是否相似的辅助方法:
以上条件可以作为判断矩阵是否相似的必要条件,而非充分条件。
- 相似关系是等价关系。
- 如果两个相似矩阵 A 和 B 之间的转换矩阵 P 是一个酉矩阵(U^*U=UU^*=I),那么就称 A 和 B “酉相似"。
- 两个相似的矩阵拥有同样的特征值,尽管相应的特征向量一般不同。
伴随矩阵
设矩阵 A=\left(a_{i j}\right)_{n \times n} ,将矩阵 A 的元素 a_{i j} 所在的第 i 行第 j 列元素划去后,剩余的各元素按原来的排列顺序组成的 \mathrm{n}-1 阶矩阵所确定的行列式称为元素 a_{i j} 的余子式,记为 M_{i j} ,称 A_{i j}=(-1)^{i+j} M_{i j} 为元素 a_{i j} 的代数余子式。
方阵 A=\left(a_{i j}\right)_{n \times n} 的各元素的代数余子式 A_{i j} 所构成的如下矩阵 A^* :
该矩阵 A^* 称为矩阵 A 的伴随矩阵。
- A 可逆当且仅当 A^* 可逆;
- 如果 A 可逆,则 A^*=|A| A^{-1} ;(重要,下面 |A|:=det(A))
- 对于 A^* 的秩有:
- \left|A^*\right|=|A|^{n-1};
- (k A)^*=k^{n-1} A^*
- 若 A 可逆,则 \left(A^{-1}\right)^*=\left(A^*\right)^{-1} ;
- \left(A^T\right)^*=\left(A^*\right)^T
- (A B)^*=B^* A^* 。
- \mathrm{AA}^*=\mathrm{A}^* \mathrm{~A}=det(\mathrm{A}) I
矩阵的迹
在线性代数中,一个 n \times n 的矩阵 \mathbf{A} 的迹 (或迹数),是指 \mathbf{A} 的主对角线 (从左上方至右下方的对角线) 上各个元素的总和,一般记作 \operatorname{tr}(\mathbf{A}) 或 \operatorname{Sp}(\mathbf{A}) :
其中 \mathbf{A}_{i, j} 代表矩阵的第i行列上的元素的值。
-
一个矩阵的迹是其特征值的总和 (按代数重数计算) 。
-
tr(A+B)=tr(A)+tr(B),tr(aA)=a·tr(A),tr(A)=tr(A^T)
-
A(n\times m),B(m\times n),则 tr(AB)=tr(BA),按矩阵乘法定义可证。
-
计算若干个同样大小的方形矩阵的乘积的迹数时,可以循环改变乘积中方形矩阵相乘的顺序,而最终的结果不变。tr(ABC)=tr(BCA), 但 tr(ABC)\ne tr(ACB)(不循环)。
-
迹数拥有相似不变性。如果矩阵 A 和 B 的话,它们会有相同的迹。
-
一个 n \times n 的方形矩阵 \mathbf{A} 的特征多项式 P_A(\lambda) 如下:
$$ P_A(\lambda)=\operatorname{det}(\mathbf{A}-\lambda \mathbf{I}) $$
特征多项式是一个关于 \lambda 的 \mathbf{n} 次多项式,它的常数项是 \mathbf{A} 的行列式的值,最高次项是 (-1)^n \lambda^n ,而接下来的 \mathbf{n}-1 次项就是 (-1)^{n-1} \operatorname{tr}(\mathbf{A}) \lambda^{n-1} ,也就是说:
$$ P_A(\lambda)=(-1)^n \lambda^n+(-1)^{n-1} \operatorname{tr}(\mathbf{A}) \lambda^{n-1}+\cdots+\operatorname{det}(\mathbf{A}) $$
矩阵范数
衡量一个矩阵 “大小” 的函数 f(\mathbf{A}),满足三个条件:
- Frobenius norm(弗罗贝尼乌斯范数)
相当于把矩阵看成一个 m\times n 的向量。
\displaystyle\|A\|_F=\sqrt{\sum_{i=1}^m \sum_{j=1}^n\left|a_{i j}\right|^2}=\sqrt{\operatorname{trace}\left(A^* A\right)}
- p-诱导范数
对于向量来说,p-范数定义为 \|\boldsymbol{x}\|_p=\sqrt[p]{x_1^p+\cdots+x_d^p}。
矩阵的p-诱导范数:
\displaystyle\|A\|_p=\max _{x \neq 0} \frac{\|A x\|_p}{\|x\|_p}=\max _{x \neq 0} \frac{\left(\sum_{i=1}^m\left|\sum_{j=1}^n a_{i j} x_j\right|^p\right)^{1 / p}}{\left(\sum_{j=1}^n\left|x_j\right|^p\right)^{1 / p}}
- 当 p=2 (欧几里德范数) 时,诱导的矩阵范数就是谱范数。矩阵 A 的谱范数是 A 最大的奇异值或半正定矩阵 A^* A 的最大特征值的平方根:
矩阵导数
- 梯度
对向量 \mathbf{x} 来说,其函数的梯度是一个向量:
二阶导是一个矩阵(称之为海森矩阵):
类似单变量微积分:f(\mathbf{x})≈f(\mathbf{x}_0)+\text{grad}f(\mathbf{x}_0)·(\mathbf{x-x}_0)
-
从各种求导规则引出矩阵函数求导规则
-
向量对标量求导 \mathbf{y}=(y_1\quad y_2 \quad...\quad y_m)^T
\frac{\partial \mathbf{y}}{\partial x}=\left[\begin{array}{c} \frac{\partial y_1}{\partial x} \\ \frac{\partial y_2}{\partial x} \\ \vdots \\ \frac{\partial y_m}{\partial x} \end{array}\right] -
标量对向量求导 \mathbf{x}=(x_1\quad x_2 \quad...\quad x_n)^T $$ \frac{\partial y}{\partial \mathbf{x}}=\left[\begin{array}{llll} \frac{\partial y}{\partial x_1} & \frac{\partial y}{\partial x_2} & \cdots & \frac{\partial y}{\partial x_n} \end{array}\right] $$
-
向量对向量求导 —— 正好是雅可比矩阵
近似公式:\mathbf{f}(\mathbf{x})-\mathbf{f}(\mathbf{p})=\mathbf{J}_{\mathbf{f}}(\mathbf{p})(\mathbf{x}-\mathbf{p})+o(\|\mathbf{x}-\mathbf{p}\|) \quad(as \mathbf{x} \rightarrow \mathbf{p})
\frac{\partial \mathbf{y}}{\partial \mathbf{x}}=\left[\begin{array}{cccc} \frac{\partial y_1}{\partial x_1} & \frac{\partial y_1}{\partial x_2} & \cdots & \frac{\partial y_1}{\partial x_n} \\ \frac{\partial y_2}{\partial x_1} & \frac{\partial y_2}{\partial x_2} & \cdots & \frac{\partial y_2}{\partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial y_m}{\partial x_1} & \frac{\partial y_m}{\partial x_2} & \cdots & \frac{\partial y_m}{\partial x_n} \end{array}\right] -
矩阵对标量求导 ——即结果的 (i,j) 元等于矩阵的 (i,j) 元对标量求导
\frac{\partial \mathbf{Y}}{\partial x}=\left[\begin{array}{cccc}\frac{\partial y_{11}}{\partial x} & \frac{\partial y_{12}}{\partial x} & \cdots & \frac{\partial y_{1 n}}{\partial x} \\ \frac{\partial y_{21}}{\partial x} & \frac{\partial y_{22}}{\partial x} & \cdots & \frac{\partial y_{2 n}}{\partial x} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial y_{m 1}}{\partial x} & \frac{\partial y_{m 2}}{\partial x} & \cdots & \frac{\partial y_{m n}}{\partial x}\end{array}\right] -
标量对矩阵求导 ——即结果的 (i,j) 元等于标量对矩阵的 (i,j) 元求导
\frac{\partial y}{\partial \mathbf{X}}=\left[\begin{array}{cccc} \frac{\partial y}{\partial x_{11}} & \frac{\partial y}{\partial x_{12}} & \cdots & \frac{\partial y}{\partial x_{1 q}} \\ \frac{\partial y}{\partial x_{21}} & \frac{\partial y}{\partial x_{22}} & \cdots & \frac{\partial y}{\partial x_{2 q}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial y}{\partial x_{p 1}} & \frac{\partial y}{\partial x_{p 2}} & \cdots & \frac{\partial y}{\partial x_{p q}} \end{array}\right] -
矩阵导数
-
\displaystyle\frac{\partial \operatorname{tr}(\boldsymbol{A B})}{\partial A_{i j}}=B_{j i} \quad \Rightarrow \quad \frac{\partial \operatorname{tr}(\boldsymbol{A B})}{\partial \boldsymbol{A}}=\boldsymbol{B}^{\top} \quad \frac{\partial \operatorname{tr}\left(\boldsymbol{A}^{\top} \boldsymbol{B}\right)}{\partial \boldsymbol{A}}=\boldsymbol{B}
- \displaystyle\frac{\partial\|A\|_F^2}{\partial A}=\frac{\partial \operatorname{tr}\left(A^{\top} A\right)}{\partial A}=2 A
- \displaystyle\boldsymbol{A}^{-1} \boldsymbol{A}=\boldsymbol{I} \Longrightarrow \frac{\partial \boldsymbol{A}^{-1} \boldsymbol{A}}{\partial x}=\frac{\partial \boldsymbol{A}^{-1}}{\partial x} \boldsymbol{A}+\boldsymbol{A}^{-1} \frac{\partial \boldsymbol{A}}{\partial x}=\mathbf{0} \Rightarrow \frac{\partial \boldsymbol{A}^{-1}}{\partial x}=-\boldsymbol{A}^{-1} \frac{\partial \boldsymbol{A}}{\partial x} \boldsymbol{A}^{-1}(求导的乘法法则)
- \displaystyle \frac{\partial \operatorname{det}(\boldsymbol{A})}{\partial \boldsymbol{A}}=\boldsymbol{C}=\operatorname{adj}(\boldsymbol{A})^{\top} \Rightarrow \frac{\partial \ln \operatorname{det}(\boldsymbol{A})}{\partial \boldsymbol{A}}=\left(\boldsymbol{A}^{-1}\right)^{\top}(求导的链式法则)
矩阵分解
- 可对角化矩阵的特征值分解
\boldsymbol{A}=\boldsymbol{V} \operatorname{diag}(\boldsymbol\lambda) \boldsymbol{V}^{-1} , \boldsymbol\lambda 对应特征值,\boldsymbol V 中的每一列为特征向量。
机器学习算法常常涉及实对称矩阵
可对角化的
V 为正交矩阵,满足 V^{\top} V=V V^{\top}=I
- 奇异值分解 ——类似特征值分解,但是对任意矩阵都成立
对于任意大小为 m \times n 的矩阵 \boldsymbol{A}, \boldsymbol{A}^{\top} \boldsymbol{A} \boldsymbol{v}=\lambda \boldsymbol{v}
令 \mathbf A \mathbf v=\sigma \mathbf u ,那么 \mathbf A^T \sigma \mathbf u=\lambda \mathbf v ,分别左乘 \mathbf A 得到 \mathbf A \mathbf A^{\top} \mathbf u=\displaystyle\frac{\lambda}{\sigma} \mathbf A \mathbf v=\lambda \mathbf u
\mathbf u 对应 \mathbf A\mathbf A^T 的特征值为 \lambda 的特征向量。
在 \mathbf{Av}=\sigma \mathbf u 两边分别乘以 \mathbf u^T ,那么 \mathbf u^{\top} \mathbf A \mathbf v=\sigma
在 \mathbf A^T \sigma \mathbf u=\lambda \mathbf v 两边分别乘以 \mathbf v ,那么 \mathbf v^T \mathbf A^T \mathbf u=\frac{\lambda}{\sigma}
所以 \sigma^2=\lambda
将 \mathbf{Av}=\sigma\mathbf{u} 写成矩阵形式 \mathbf{AV=U\Sigma}
本文阅读量\mathbf{U,V} 是正交矩阵,\boldsymbol{A}=\boldsymbol{A} \boldsymbol{V} \boldsymbol{V}^{\top}=\boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}^{\top}
广义逆 \mathbf{A^+=V\Sigma^{-1}U^T}
\Sigma^{-1} 的定义见这里
U 的列向量为左奇异向量,V 的列向量为右奇异向量
Σ 的大小为m×n,U的大小为m×m,V的大小为n×n