跳转至

1 线性代数

矩阵合同

在线性代数,特别是二次型理论中,常常用到矩阵间的合同关系。两个矩阵 AB 是合同的,是指如果有同数域上的可逆矩阵 P ,使得 $$ A=P^{\mathrm{T}} B P $$

  • 合同关系是等价关系。
  • 合同类矩阵具有相等的秩和正惯性指数,秩和正惯性指数是合同关系下的完全不变量,即如果两个矩阵合同等价于他们的秩和正惯性指数相等。
  • 每个对称矩阵都合同于一个对角矩阵,后者称为一个标准形。

正定性

一个 n \times n 的实对称矩阵 M 是正定的,当且仅当对于所有的非零、实系数向量 \mathbf{z} ,都有 \mathbf{z}^T M \mathbf{z}>0

M 是半正定矩阵当且仅当对于所 有非零向量 \mathbf{z} \in \mathbb{R}^n (或 \mathbf{z} \in \mathbb{C}^n ),都有 z^* M z \geq 0 。(*表示共轭转置) M 是半负定矩阵当且仅当对于 所有非零向量 \mathbf{z} \in \mathbb{R}^n (或 \mathbf{z} \in \mathbb{C}^n ),都有 z^* M z \leq 0

  • M 为半正定矩阵,可以记作 M \geq 0 。如果 M 是正定矩阵,可以记作 M>0
  • 如果 M 、 N 是正定阵,那么 M+N 、 M N MN M N 都是正定 的。如果 M N=N M ,那么 M N 仍是正定阵。
  • 如果 M, N \geq 0 为实系数矩阵,则 \operatorname{tr}(M N) \geq 0

矩阵相似

在线性代数中,相似关系是两个矩阵之间的一种等价关系。两个 n \times n 矩阵 AB 为相似矩阵当且仅当存在一个 n \times n 的可逆矩阵 P ,使得:

$$ P^{-1} A P=B $$ 判断两个矩阵是否相似的辅助方法:

  1. 判断特征值是否相等;

  2. 判断行列式是否相等;

  3. 判断是否相等;

  4. 判断是否相等;

以上条件可以作为判断矩阵是否相似的必要条件,而非充分条件。

  • 相似关系是等价关系。
  • 如果两个相似矩阵 AB 之间的转换矩阵 P 是一个酉矩阵(U^*U=UU^*=I),那么就称 AB “酉相似"。
  • 两个相似的矩阵拥有同样的特征值,尽管相应的特征向量一般不同。

伴随矩阵

设矩阵 A=\left(a_{i j}\right)_{n \times n} ,将矩阵 A 的元素 a_{i j} 所在的第 i 行第 j 列元素划去后,剩余的各元素按原来的排列顺序组成的 \mathrm{n}-1 阶矩阵所确定的行列式称为元素 a_{i j} 的余子式,记为 M_{i j} ,称 A_{i j}=(-1)^{i+j} M_{i j} 为元素 a_{i j} 的代数余子式。

方阵 A=\left(a_{i j}\right)_{n \times n} 的各元素的代数余子式 A_{i j} 所构成的如下矩阵 A^* :

\begin{array}{cccc} A_{11} & A_{21} & \cdots & A_{n 1} \\ A_{12} & A_{22} & \cdots & A_{n 2} \\ \vdots & \vdots & & \vdots \\ A_{1 n} & A_{2 n} & \cdots & A_{n n} \end{array}

该矩阵 A^* 称为矩阵 A 的伴随矩阵。

  • A 可逆当且仅当 A^* 可逆;
  • 如果 A 可逆,则 A^*=|A| A^{-1} ;(重要,下面 |A|:=det(A)
  • 对于 A^* 的秩有:
\begin{aligned} &\operatorname{rank}\left(A^*\right)=n, \operatorname{rank}(A)=n \\ &\operatorname{rank}\left(A^*\right)=1, \operatorname{rank}(A)=n-1 \\ &\operatorname{rank}\left(A^*\right)=0, \operatorname{rank}(A)<n-1 \end{aligned}
  • \left|A^*\right|=|A|^{n-1};
  • (k A)^*=k^{n-1} A^*
  • A 可逆,则 \left(A^{-1}\right)^*=\left(A^*\right)^{-1}
  • \left(A^T\right)^*=\left(A^*\right)^T
  • (A B)^*=B^* A^*
  • \mathrm{AA}^*=\mathrm{A}^* \mathrm{~A}=det(\mathrm{A}) I

矩阵的迹

在线性代数中,一个 n \times n 的矩阵 \mathbf{A} 的迹 (或迹数),是指 \mathbf{A} 的主对角线 (从左上方至右下方的对角线) 上各个元素的总和,一般记作 \operatorname{tr}(\mathbf{A})\operatorname{Sp}(\mathbf{A}) :

\operatorname{tr}(\mathbf{A})=\mathbf{A}_{1,1}+\mathbf{A}_{2,2}+\cdots+\mathbf{A}_{n, n}

其中 \mathbf{A}_{i, j} 代表矩阵的第i行列上的元素的值。

  • 一个矩阵的迹是其特征值的总和 (按代数重数计算) 。

  • tr(A+B)=tr(A)+tr(B)tr(aA)=a·tr(A)tr(A)=tr(A^T)

  • A(n\times m),B(m\times n),则 tr(AB)=tr(BA),按矩阵乘法定义可证。

  • 计算若干个同样大小的方形矩阵的乘积的迹数时,可以循环改变乘积中方形矩阵相乘的顺序,而最终的结果不变。tr(ABC)=tr(BCA),tr(ABC)\ne tr(ACB)(不循环)。

  • 迹数拥有相似不变性。如果矩阵 AB 的话,它们会有相同的迹。

  • 一个 n \times n 的方形矩阵 \mathbf{A} 的特征多项式 P_A(\lambda) 如下:

$$ P_A(\lambda)=\operatorname{det}(\mathbf{A}-\lambda \mathbf{I}) $$

特征多项式是一个关于 \lambda\mathbf{n} 次多项式,它的常数项是 \mathbf{A} 的行列式的值,最高次项是 (-1)^n \lambda^n ,而接下来的 \mathbf{n}-1 次项就是 (-1)^{n-1} \operatorname{tr}(\mathbf{A}) \lambda^{n-1} ,也就是说:

$$ P_A(\lambda)=(-1)^n \lambda^n+(-1)^{n-1} \operatorname{tr}(\mathbf{A}) \lambda^{n-1}+\cdots+\operatorname{det}(\mathbf{A}) $$

矩阵范数

衡量一个矩阵 “大小” 的函数 f(\mathbf{A}),满足三个条件:

\begin{aligned} &f(\boldsymbol{A}) \geq \mathbf{0} , \text { 等号成立当且仅当 } \boldsymbol{A}=0 \\ &f(\alpha \boldsymbol{A})=|\alpha| f(\boldsymbol{A}),\alpha\in \mathbf{A}的数域 \\ &f(\boldsymbol{A}+\boldsymbol{B}) \leq f(\boldsymbol{A})+f(\boldsymbol{B}) \end{aligned}
  • Frobenius norm(弗罗贝尼乌斯范数)

相当于把矩阵看成一个 m\times n 的向量。

\displaystyle\|A\|_F=\sqrt{\sum_{i=1}^m \sum_{j=1}^n\left|a_{i j}\right|^2}=\sqrt{\operatorname{trace}\left(A^* A\right)}

  • p-诱导范数

对于向量来说,p-范数定义为 \|\boldsymbol{x}\|_p=\sqrt[p]{x_1^p+\cdots+x_d^p}

矩阵的p-诱导范数:

\displaystyle\|A\|_p=\max _{x \neq 0} \frac{\|A x\|_p}{\|x\|_p}=\max _{x \neq 0} \frac{\left(\sum_{i=1}^m\left|\sum_{j=1}^n a_{i j} x_j\right|^p\right)^{1 / p}}{\left(\sum_{j=1}^n\left|x_j\right|^p\right)^{1 / p}}

  • p=2 (欧几里德范数) 时,诱导的矩阵范数就是谱范数。矩阵 A 的谱范数是 A 最大的奇异值或半正定矩阵 A^* A 的最大特征值的平方根:
\|A\|_2=\sqrt{\lambda_{\max }\left(A^* A\right)}

矩阵导数

  • 梯度

对向量 \mathbf{x} 来说,其函数的梯度是一个向量:

(\mathbf{grad}f(\mathbf{x}))_i=\left(\nabla f(\boldsymbol{x})\right)_{i}=\frac{\partial f(\mathbf{x})}{\partial x_i}

二阶导是一个矩阵(称之为海森矩阵):

\left(\nabla^2 f(\boldsymbol{x})\right)_{i j}=\frac{\partial^2 f(\boldsymbol{x})}{\partial x_i \partial x_j}

类似单变量微积分:f(\mathbf{x})≈f(\mathbf{x}_0)+\text{grad}f(\mathbf{x}_0)·(\mathbf{x-x}_0)

  • 从各种求导规则引出矩阵函数求导规则

  • 向量对标量求导 \mathbf{y}=(y_1\quad y_2 \quad...\quad y_m)^T

    \frac{\partial \mathbf{y}}{\partial x}=\left[\begin{array}{c} \frac{\partial y_1}{\partial x} \\ \frac{\partial y_2}{\partial x} \\ \vdots \\ \frac{\partial y_m}{\partial x} \end{array}\right]
  • 标量对向量求导 \mathbf{x}=(x_1\quad x_2 \quad...\quad x_n)^T $$ \frac{\partial y}{\partial \mathbf{x}}=\left[\begin{array}{llll} \frac{\partial y}{\partial x_1} & \frac{\partial y}{\partial x_2} & \cdots & \frac{\partial y}{\partial x_n} \end{array}\right] $$

  • 向量对向量求导 —— 正好是雅可比矩阵

    近似公式:\mathbf{f}(\mathbf{x})-\mathbf{f}(\mathbf{p})=\mathbf{J}_{\mathbf{f}}(\mathbf{p})(\mathbf{x}-\mathbf{p})+o(\|\mathbf{x}-\mathbf{p}\|) \quad(as \mathbf{x} \rightarrow \mathbf{p})

    \frac{\partial \mathbf{y}}{\partial \mathbf{x}}=\left[\begin{array}{cccc} \frac{\partial y_1}{\partial x_1} & \frac{\partial y_1}{\partial x_2} & \cdots & \frac{\partial y_1}{\partial x_n} \\ \frac{\partial y_2}{\partial x_1} & \frac{\partial y_2}{\partial x_2} & \cdots & \frac{\partial y_2}{\partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial y_m}{\partial x_1} & \frac{\partial y_m}{\partial x_2} & \cdots & \frac{\partial y_m}{\partial x_n} \end{array}\right]
  • 矩阵对标量求导 ——即结果的 (i,j) 元等于矩阵的 (i,j) 元对标量求导

    \frac{\partial \mathbf{Y}}{\partial x}=\left[\begin{array}{cccc}\frac{\partial y_{11}}{\partial x} & \frac{\partial y_{12}}{\partial x} & \cdots & \frac{\partial y_{1 n}}{\partial x} \\ \frac{\partial y_{21}}{\partial x} & \frac{\partial y_{22}}{\partial x} & \cdots & \frac{\partial y_{2 n}}{\partial x} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial y_{m 1}}{\partial x} & \frac{\partial y_{m 2}}{\partial x} & \cdots & \frac{\partial y_{m n}}{\partial x}\end{array}\right]
  • 标量对矩阵求导 ——即结果的 (i,j) 元等于标量对矩阵的 (i,j) 元求导

    \frac{\partial y}{\partial \mathbf{X}}=\left[\begin{array}{cccc} \frac{\partial y}{\partial x_{11}} & \frac{\partial y}{\partial x_{12}} & \cdots & \frac{\partial y}{\partial x_{1 q}} \\ \frac{\partial y}{\partial x_{21}} & \frac{\partial y}{\partial x_{22}} & \cdots & \frac{\partial y}{\partial x_{2 q}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial y}{\partial x_{p 1}} & \frac{\partial y}{\partial x_{p 2}} & \cdots & \frac{\partial y}{\partial x_{p q}} \end{array}\right]
  • 矩阵导数

  • \displaystyle\frac{\partial \operatorname{tr}(\boldsymbol{A B})}{\partial A_{i j}}=B_{j i} \quad \Rightarrow \quad \frac{\partial \operatorname{tr}(\boldsymbol{A B})}{\partial \boldsymbol{A}}=\boldsymbol{B}^{\top} \quad \frac{\partial \operatorname{tr}\left(\boldsymbol{A}^{\top} \boldsymbol{B}\right)}{\partial \boldsymbol{A}}=\boldsymbol{B}

  • \displaystyle\frac{\partial\|A\|_F^2}{\partial A}=\frac{\partial \operatorname{tr}\left(A^{\top} A\right)}{\partial A}=2 A
  • \displaystyle\boldsymbol{A}^{-1} \boldsymbol{A}=\boldsymbol{I} \Longrightarrow \frac{\partial \boldsymbol{A}^{-1} \boldsymbol{A}}{\partial x}=\frac{\partial \boldsymbol{A}^{-1}}{\partial x} \boldsymbol{A}+\boldsymbol{A}^{-1} \frac{\partial \boldsymbol{A}}{\partial x}=\mathbf{0} \Rightarrow \frac{\partial \boldsymbol{A}^{-1}}{\partial x}=-\boldsymbol{A}^{-1} \frac{\partial \boldsymbol{A}}{\partial x} \boldsymbol{A}^{-1}(求导的乘法法则)
  • \displaystyle \frac{\partial \operatorname{det}(\boldsymbol{A})}{\partial \boldsymbol{A}}=\boldsymbol{C}=\operatorname{adj}(\boldsymbol{A})^{\top} \Rightarrow \frac{\partial \ln \operatorname{det}(\boldsymbol{A})}{\partial \boldsymbol{A}}=\left(\boldsymbol{A}^{-1}\right)^{\top}(求导的链式法则)

矩阵分解

  • 可对角化矩阵的特征值分解

\boldsymbol{A}=\boldsymbol{V} \operatorname{diag}(\boldsymbol\lambda) \boldsymbol{V}^{-1}\boldsymbol\lambda 对应特征值,\boldsymbol V 中的每一列为特征向量。

机器学习算法常常涉及实对称矩阵

  • 可对角化的

  • V 为正交矩阵,满足 V^{\top} V=V V^{\top}=I

  • 奇异值分解 ——类似特征值分解,但是对任意矩阵都成立

对于任意大小为 m \times n 的矩阵 \boldsymbol{A}, \boldsymbol{A}^{\top} \boldsymbol{A} \boldsymbol{v}=\lambda \boldsymbol{v}

\mathbf A \mathbf v=\sigma \mathbf u ,那么 \mathbf A^T \sigma \mathbf u=\lambda \mathbf v ,分别左乘 \mathbf A 得到 \mathbf A \mathbf A^{\top} \mathbf u=\displaystyle\frac{\lambda}{\sigma} \mathbf A \mathbf v=\lambda \mathbf u

\mathbf u 对应 \mathbf A\mathbf A^T 的特征值为 \lambda 的特征向量。

\mathbf{Av}=\sigma \mathbf u 两边分别乘以 \mathbf u^T ,那么 \mathbf u^{\top} \mathbf A \mathbf v=\sigma

\mathbf A^T \sigma \mathbf u=\lambda \mathbf v 两边分别乘以 \mathbf v ,那么 \mathbf v^T \mathbf A^T \mathbf u=\frac{\lambda}{\sigma}

所以 \sigma^2=\lambda

\mathbf{Av}=\sigma\mathbf{u} 写成矩阵形式 \mathbf{AV=U\Sigma}

\mathbf{U,V} 是正交矩阵,\boldsymbol{A}=\boldsymbol{A} \boldsymbol{V} \boldsymbol{V}^{\top}=\boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}^{\top}

广义逆 \mathbf{A^+=V\Sigma^{-1}U^T}

\Sigma^{-1} 的定义见这里

U 的列向量为左奇异向量,V 的列向量为右奇异向量

Σ 的大小为m×n,U的大小为m×m,V的大小为n×n

本文阅读量