1 线性代数

矩阵合同

在线性代数，特别是二次型理论中，常常用到矩阵间的合同关系。两个矩阵 $A$ 和 $B$ 是合同的，是指如果有同数域上的可逆矩阵 $P$ ，使得 $$ A=P^{\mathrm{T}} B P $$

合同关系是等价关系。
合同类矩阵具有相等的秩和正惯性指数，秩和正惯性指数是合同关系下的完全不变量，即如果两个矩阵合同等价于他们的秩和正惯性指数相等。
每个对称矩阵都合同于一个对角矩阵，后者称为一个标准形。

正定性

一个 $n \times n$ 的实对称矩阵 $M$ 是正定的，当且仅当对于所有的非零、实系数向量 $\mathbf{z}$ ，都有 $\mathbf{z}^T M \mathbf{z}>0$ 。

$M$ 是半正定矩阵当且仅当对于所有非零向量 $\mathbf{z} \in \mathbb{R}^n$ (或 $\mathbf{z} \in \mathbb{C}^n$ )，都有 $z^* M z \geq 0$ 。（ $*$ 表示共轭转置） $M$ 是半负定矩阵当且仅当对于所有非零向量 $\mathbf{z} \in \mathbb{R}^n$ (或 $\mathbf{z} \in \mathbb{C}^n$ )，都有 $z^* M z \leq 0$ 。

若 $M$ 为半正定矩阵，可以记作 $M \geq 0$ 。如果 $M$ 是正定矩阵，可以记作 $M>0$ 。
如果 $M 、 N$ 是正定阵，那么 $M+N 、 M N M$ 与 $N M N$ 都是正定的。如果 $M N=N M$ ，那么 $M N$ 仍是正定阵。
如果 $M, N \geq 0$ 为实系数矩阵，则 $\operatorname{tr}(M N) \geq 0$ 。

矩阵相似

在线性代数中，相似关系是两个矩阵之间的一种等价关系。两个 $n \times n$ 矩阵 $A$ 与 $B$ 为相似矩阵当且仅当存在一个 $n \times n$ 的可逆矩阵 $P$ ，使得:

$$ P^{-1} A P=B $$ 判断两个矩阵是否相似的辅助方法：

判断特征值是否相等；
判断行列式是否相等；
判断迹是否相等；
判断秩是否相等；

以上条件可以作为判断矩阵是否相似的必要条件，而非充分条件。

相似关系是等价关系。
如果两个相似矩阵 $A$ 和 $B$ 之间的转换矩阵 $P$ 是一个酉矩阵（ $U^*U=UU^*=I$ ），那么就称 $A$ 和 $B$ “酉相似"。
两个相似的矩阵拥有同样的特征值，尽管相应的特征向量一般不同。

伴随矩阵

设矩阵 $A=\left(a_{i j}\right)_{n \times n}$ ，将矩阵 $A$ 的元素 $a_{i j}$ 所在的第 i 行第 j 列元素划去后，剩余的各元素按原来的排列顺序组成的 $\mathrm{n}-1$ 阶矩阵所确定的行列式称为元素 $a_{i j}$ 的余子式，记为 $M_{i j}$ ，称 $A_{i j}=(-1)^{i+j} M_{i j}$ 为元素 $a_{i j}$ 的代数余子式。

方阵 $A=\left(a_{i j}\right)_{n \times n}$ 的各元素的代数余子式 $A_{i j}$ 所构成的如下矩阵 $A^*$ :

$\begin{array}{cccc} A_{11} & A_{21} & \cdots & A_{n 1} \\ A_{12} & A_{22} & \cdots & A_{n 2} \\ \vdots & \vdots & & \vdots \\ A_{1 n} & A_{2 n} & \cdots & A_{n n} \end{array}$

该矩阵 $A^*$ 称为矩阵 $A$ 的伴随矩阵。

$A$ 可逆当且仅当 $A^*$ 可逆；
如果 $A$ 可逆，则 $A^*=|A| A^{-1}$ ；（重要，下面 $|A|:=det(A)$ ）
对于 $A^*$ 的秩有:

$\begin{aligned} &\operatorname{rank}\left(A^*\right)=n, \operatorname{rank}(A)=n \\ &\operatorname{rank}\left(A^*\right)=1, \operatorname{rank}(A)=n-1 \\ &\operatorname{rank}\left(A^*\right)=0, \operatorname{rank}(A)<n-1 \end{aligned}$

$\left|A^*\right|=|A|^{n-1}$ ;
$(k A)^*=k^{n-1} A^*$
若 $A$ 可逆，则 $\left(A^{-1}\right)^*=\left(A^*\right)^{-1}$ ；
$\left(A^T\right)^*=\left(A^*\right)^T$
$(A B)^*=B^* A^*$ 。
$\mathrm{AA}^*=\mathrm{A}^* \mathrm{~A}=det(\mathrm{A}) I$

矩阵的迹

在线性代数中，一个 $n \times n$ 的矩阵 $\mathbf{A}$ 的迹 (或迹数)，是指 $\mathbf{A}$ 的主对角线 (从左上方至右下方的对角线) 上各个元素的总和，一般记作 $\operatorname{tr}(\mathbf{A})$ 或 $\operatorname{Sp}(\mathbf{A})$ :

$\operatorname{tr}(\mathbf{A})=\mathbf{A}_{1,1}+\mathbf{A}_{2,2}+\cdots+\mathbf{A}_{n, n}$

其中 $\mathbf{A}_{i, j}$ 代表矩阵的第i行列上的元素的值。

一个矩阵的迹是其特征值的总和 (按代数重数计算) 。
$tr(A+B)=tr(A)+tr(B)$ ， $tr(aA)=a·tr(A)$ ， $tr(A)=tr(A^T)$
$A(n\times m),B(m\times n)$ ，则 $tr(AB)=tr(BA)$ ，按矩阵乘法定义可证。
计算若干个同样大小的方形矩阵的乘积的迹数时，可以循环改变乘积中方形矩阵相乘的顺序，而最终的结果不变。 $tr(ABC)=tr(BCA),$ 但 $tr(ABC)\ne tr(ACB)$ （不循环）。
迹数拥有相似不变性。如果矩阵 A 和 B 的话，它们会有相同的迹。
一个 $n \times n$ 的方形矩阵 $\mathbf{A}$ 的特征多项式 $P_A(\lambda)$ 如下：

$$ P_A(\lambda)=\operatorname{det}(\mathbf{A}-\lambda \mathbf{I}) $$

特征多项式是一个关于 $\lambda$ 的 $\mathbf{n}$ 次多项式，它的常数项是 $\mathbf{A}$ 的行列式的值，最高次项是 $(-1)^n \lambda^n$ ，而接下来的 $\mathbf{n}-1$ 次项就是 $(-1)^{n-1} \operatorname{tr}(\mathbf{A}) \lambda^{n-1}$ ，也就是说:

$$ P_A(\lambda)=(-1)^n \lambda^n+(-1)^{n-1} \operatorname{tr}(\mathbf{A}) \lambda^{n-1}+\cdots+\operatorname{det}(\mathbf{A}) $$

矩阵范数

衡量一个矩阵 “大小” 的函数 $f(\mathbf{A})$ ，满足三个条件：

$\begin{aligned} &f(\boldsymbol{A}) \geq \mathbf{0} ， \text { 等号成立当且仅当 } \boldsymbol{A}=0 \\ &f(\alpha \boldsymbol{A})=|\alpha| f(\boldsymbol{A})，\alpha\in \mathbf{A}的数域 \\ &f(\boldsymbol{A}+\boldsymbol{B}) \leq f(\boldsymbol{A})+f(\boldsymbol{B}) \end{aligned}$

Frobenius norm（弗罗贝尼乌斯范数）

相当于把矩阵看成一个 $m\times n$ 的向量。

$\displaystyle\|A\|_F=\sqrt{\sum_{i=1}^m \sum_{j=1}^n\left|a_{i j}\right|^2}=\sqrt{\operatorname{trace}\left(A^* A\right)}$

p-诱导范数

对于向量来说，p-范数定义为 $\|\boldsymbol{x}\|_p=\sqrt[p]{x_1^p+\cdots+x_d^p}$ 。

矩阵的p-诱导范数：

$\displaystyle\|A\|_p=\max _{x \neq 0} \frac{\|A x\|_p}{\|x\|_p}=\max _{x \neq 0} \frac{\left(\sum_{i=1}^m\left|\sum_{j=1}^n a_{i j} x_j\right|^p\right)^{1 / p}}{\left(\sum_{j=1}^n\left|x_j\right|^p\right)^{1 / p}}$

当 $p=2$ (欧几里德范数) 时，诱导的矩阵范数就是谱范数。矩阵 $A$ 的谱范数是 $A$ 最大的奇异值或半正定矩阵 $A^* A$ 的最大特征值的平方根：

$\|A\|_2=\sqrt{\lambda_{\max }\left(A^* A\right)}$

矩阵导数

梯度

对向量 $\mathbf{x}$ 来说，其函数的梯度是一个向量：

$(\mathbf{grad}f(\mathbf{x}))_i=\left(\nabla f(\boldsymbol{x})\right)_{i}=\frac{\partial f(\mathbf{x})}{\partial x_i}$

二阶导是一个矩阵（称之为海森矩阵）：

$\left(\nabla^2 f(\boldsymbol{x})\right)_{i j}=\frac{\partial^2 f(\boldsymbol{x})}{\partial x_i \partial x_j}$

类似单变量微积分： $f(\mathbf{x})≈f(\mathbf{x}_0)+\text{grad}f(\mathbf{x}_0)·(\mathbf{x-x}_0)$

从各种求导规则引出矩阵函数求导规则
向量对标量求导 $\mathbf{y}=(y_1\quad y_2 \quad...\quad y_m)^T$

$\frac{\partial \mathbf{y}}{\partial x}=\left[\begin{array}{c} \frac{\partial y_1}{\partial x} \\ \frac{\partial y_2}{\partial x} \\ \vdots \\ \frac{\partial y_m}{\partial x} \end{array}\right]$
标量对向量求导 $\mathbf{x}=(x_1\quad x_2 \quad...\quad x_n)^T$ $$ \frac{\partial y}{\partial \mathbf{x}}=\left[\begin{array}{llll} \frac{\partial y}{\partial x_1} & \frac{\partial y}{\partial x_2} & \cdots & \frac{\partial y}{\partial x_n} \end{array}\right] $$
向量对向量求导 —— 正好是雅可比矩阵

近似公式： $\mathbf{f}(\mathbf{x})-\mathbf{f}(\mathbf{p})=\mathbf{J}_{\mathbf{f}}(\mathbf{p})(\mathbf{x}-\mathbf{p})+o(\|\mathbf{x}-\mathbf{p}\|) \quad($ as $\mathbf{x} \rightarrow \mathbf{p})$

$\frac{\partial \mathbf{y}}{\partial \mathbf{x}}=\left[\begin{array}{cccc} \frac{\partial y_1}{\partial x_1} & \frac{\partial y_1}{\partial x_2} & \cdots & \frac{\partial y_1}{\partial x_n} \\ \frac{\partial y_2}{\partial x_1} & \frac{\partial y_2}{\partial x_2} & \cdots & \frac{\partial y_2}{\partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial y_m}{\partial x_1} & \frac{\partial y_m}{\partial x_2} & \cdots & \frac{\partial y_m}{\partial x_n} \end{array}\right]$
矩阵对标量求导 ——即结果的 $(i,j)$ 元等于矩阵的 $(i,j)$ 元对标量求导

$\frac{\partial \mathbf{Y}}{\partial x}=\left[\begin{array}{cccc}\frac{\partial y_{11}}{\partial x} & \frac{\partial y_{12}}{\partial x} & \cdots & \frac{\partial y_{1 n}}{\partial x} \\ \frac{\partial y_{21}}{\partial x} & \frac{\partial y_{22}}{\partial x} & \cdots & \frac{\partial y_{2 n}}{\partial x} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial y_{m 1}}{\partial x} & \frac{\partial y_{m 2}}{\partial x} & \cdots & \frac{\partial y_{m n}}{\partial x}\end{array}\right]$
标量对矩阵求导 ——即结果的 $(i,j)$ 元等于标量对矩阵的 $(i,j)$ 元求导

$\frac{\partial y}{\partial \mathbf{X}}=\left[\begin{array}{cccc} \frac{\partial y}{\partial x_{11}} & \frac{\partial y}{\partial x_{12}} & \cdots & \frac{\partial y}{\partial x_{1 q}} \\ \frac{\partial y}{\partial x_{21}} & \frac{\partial y}{\partial x_{22}} & \cdots & \frac{\partial y}{\partial x_{2 q}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial y}{\partial x_{p 1}} & \frac{\partial y}{\partial x_{p 2}} & \cdots & \frac{\partial y}{\partial x_{p q}} \end{array}\right]$
矩阵导数
$\displaystyle\frac{\partial \operatorname{tr}(\boldsymbol{A B})}{\partial A_{i j}}=B_{j i} \quad \Rightarrow \quad \frac{\partial \operatorname{tr}(\boldsymbol{A B})}{\partial \boldsymbol{A}}=\boldsymbol{B}^{\top} \quad \frac{\partial \operatorname{tr}\left(\boldsymbol{A}^{\top} \boldsymbol{B}\right)}{\partial \boldsymbol{A}}=\boldsymbol{B}$
$\displaystyle\frac{\partial\|A\|_F^2}{\partial A}=\frac{\partial \operatorname{tr}\left(A^{\top} A\right)}{\partial A}=2 A$
$\displaystyle\boldsymbol{A}^{-1} \boldsymbol{A}=\boldsymbol{I} \Longrightarrow \frac{\partial \boldsymbol{A}^{-1} \boldsymbol{A}}{\partial x}=\frac{\partial \boldsymbol{A}^{-1}}{\partial x} \boldsymbol{A}+\boldsymbol{A}^{-1} \frac{\partial \boldsymbol{A}}{\partial x}=\mathbf{0} \Rightarrow \frac{\partial \boldsymbol{A}^{-1}}{\partial x}=-\boldsymbol{A}^{-1} \frac{\partial \boldsymbol{A}}{\partial x} \boldsymbol{A}^{-1}$ （求导的乘法法则）
$\displaystyle \frac{\partial \operatorname{det}(\boldsymbol{A})}{\partial \boldsymbol{A}}=\boldsymbol{C}=\operatorname{adj}(\boldsymbol{A})^{\top} \Rightarrow \frac{\partial \ln \operatorname{det}(\boldsymbol{A})}{\partial \boldsymbol{A}}=\left(\boldsymbol{A}^{-1}\right)^{\top}$ （求导的链式法则）

矩阵分解

可对角化矩阵的特征值分解

$\boldsymbol{A}=\boldsymbol{V} \operatorname{diag}(\boldsymbol\lambda) \boldsymbol{V}^{-1}$ ， $\boldsymbol\lambda$ 对应特征值， $\boldsymbol V$ 中的每一列为特征向量。

机器学习算法常常涉及实对称矩阵

可对角化的

$V$ 为正交矩阵，满足 $V^{\top} V=V V^{\top}=I$

奇异值分解 ——类似特征值分解，但是对任意矩阵都成立

对于任意大小为 $m \times n$ 的矩阵 $\boldsymbol{A}, \boldsymbol{A}^{\top} \boldsymbol{A} \boldsymbol{v}=\lambda \boldsymbol{v}$

令 $\mathbf A \mathbf v=\sigma \mathbf u$ ，那么 $\mathbf A^T \sigma \mathbf u=\lambda \mathbf v$ ，分别左乘 $\mathbf A$ 得到 $\mathbf A \mathbf A^{\top} \mathbf u=\displaystyle\frac{\lambda}{\sigma} \mathbf A \mathbf v=\lambda \mathbf u$

$\mathbf u$ 对应 $\mathbf A\mathbf A^T$ 的特征值为 $\lambda$ 的特征向量。

在 $\mathbf{Av}=\sigma \mathbf u$ 两边分别乘以 $\mathbf u^T$ ，那么 $\mathbf u^{\top} \mathbf A \mathbf v=\sigma$

在 $\mathbf A^T \sigma \mathbf u=\lambda \mathbf v$ 两边分别乘以 $\mathbf v$ ，那么 $\mathbf v^T \mathbf A^T \mathbf u=\frac{\lambda}{\sigma}$

所以 $\sigma^2=\lambda$

将 $\mathbf{Av}=\sigma\mathbf{u}$ 写成矩阵形式 $\mathbf{AV=U\Sigma}$

$\mathbf{U,V}$ 是正交矩阵， $\boldsymbol{A}=\boldsymbol{A} \boldsymbol{V} \boldsymbol{V}^{\top}=\boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}^{\top}$

广义逆 $\mathbf{A^+=V\Sigma^{-1}U^T}$

$\Sigma^{-1}$ 的定义见这里

U 的列向量为左奇异向量，V 的列向量为右奇异向量

Σ 的大小为m×n，U的大小为m×m，V的大小为n×n

本文阅读量