2 概率论与数理统计

概率分布

高斯分布、正态分布

$\displaystyle\mathcal{N}\left(x ; \mu, \sigma^2\right)=\sqrt{\frac{1}{2 \pi \sigma^2}} \exp \left(-\frac{1}{2 \sigma^2}(x-\mu)^2\right) \quad$ 均值 $\mu$ 标准差 $\sigma$

$\displaystyle\mathcal{N}\left(x ; \mu, \beta^{-1}\right)=\sqrt{\frac{\beta}{2 \pi}} \exp \left(-\frac{\beta}{2}(x-\mu)^2\right) \quad$ 均值 $\mu$ Scale $\beta$

多元正态分布

$\displaystyle\mathcal{N}(\boldsymbol{x} ; \boldsymbol{\mu}, \boldsymbol{\Sigma})=\frac{1}{\sqrt{(2 \pi)^n \operatorname{det}(\boldsymbol{\Sigma})}} \exp \left(-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{\top} \mathbf{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right)$

$\displaystyle\mathcal{N}\left(\boldsymbol{x} ; \boldsymbol{\mu}, \boldsymbol{\beta}^{-1}\right)=\sqrt{\frac{\operatorname{det}(\boldsymbol{\beta})}{(2 \pi)^n}} \exp \left(-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{\top} \boldsymbol{\beta}(\boldsymbol{x}-\boldsymbol{\mu})\right)$

贝塔分布 —— $\mu\in[0,1]$

$\displaystyle\operatorname{Beta}(\mu \mid a, b)=\frac{\Gamma(a+b)}{\Gamma(a) \Gamma(b)} \mu^{a-1}(1-\mu)^{b-1}$

$\displaystyle\mathbb{E}[\mu]=\frac{a}{a+b}$

$\displaystyle\operatorname{var}[\mu]=\frac{a b}{(a+b)^2(a+b+1)}$

狄利克雷分布 ——贝塔分布的多元扩展

多个连续变量 $\mu_i \in[0,1]$ 的概率分布，满足 $\sum_i \mu_i=1$

$\displaystyle\operatorname{Dir}(\boldsymbol{\mu} \mid \boldsymbol{\alpha})=\frac{\Gamma\left(\sum_i \alpha_i\right)}{\Pi_i \Gamma\left(\alpha_i\right)} \prod_i \mu_i^{\alpha_i-1}$

$\displaystyle\mathbb{E}\left[\mu_i\right]=\frac{\alpha_i}{\sum_i \alpha_i}$

伽马分布 —— $\tau>0$

$\displaystyle\operatorname{Gam}(\tau \mid a, b)=\frac{1}{\Gamma(a)} b^a \tau^{a-1} e^{-b \tau}$

$\displaystyle\mathbb{E}[\tau]=\frac{a}{b}$

$\displaystyle\operatorname{var}[\tau]=\frac{a}{b^2}$

熵

当取自有限的样本时，熵的公式可以表示为：（注意负号） $$ \mathrm{H}(X)=\sum_i \mathrm{P}\left(x_i\right) \mathrm{I}\left(x_i\right)=-\sum_i \mathrm{P}\left(x_i\right) \log _b \mathrm{P}\left(x_i\right) $$

这里 $b$ 是底，通常可以是 2，e 或 10.

还可以定义事件 $X$ 与 $Y$ 分别取 $x_i$ 和 $y_j$ 时的条件熵为 $$ \mathrm{H}(X \mid Y)=-\sum_{i, j} p\left(x_i| y_j\right) \log \frac{p\left(x_i| y_j\right)}{p\left(y_j\right)} $$

KL 散度

衡量两个分布的差异

$D_{K L}(P \| Q)=\mathbb{E}_{x \sim P}\left[\log \frac{P(x)}{Q(x)}\right]$
非负, $\mathrm{P}=\mathrm{Q}$ 时为零
$D_{K L}(P \| Q) \neq D_{K L}(Q \| P)$ ，但理论上最小值均当 $\mathrm{P}=\mathrm{Q}$

$D_{K L}(P \| Q)=\mathbb{E}_{x \sim P}\left[\log \frac{P(x)}{Q(x)}\right]=\mathbb{E}_{x \sim P}[\log P(x)]-\mathbb{E}_{x \sim P}[\log Q(x)]$

即 P 和 Q 的 KL 散度等于 $-H(P)+H(P,Q)$ ，后者称之为交叉熵。

本文阅读量