跳转至

2 概率论与数理统计

概率分布

  • 高斯分布、正态分布

\displaystyle\mathcal{N}\left(x ; \mu, \sigma^2\right)=\sqrt{\frac{1}{2 \pi \sigma^2}} \exp \left(-\frac{1}{2 \sigma^2}(x-\mu)^2\right) \quad 均值 \mu 标准差 \sigma

\displaystyle\mathcal{N}\left(x ; \mu, \beta^{-1}\right)=\sqrt{\frac{\beta}{2 \pi}} \exp \left(-\frac{\beta}{2}(x-\mu)^2\right) \quad 均值 \mu Scale \beta

  • 多元正态分布

\displaystyle\mathcal{N}(\boldsymbol{x} ; \boldsymbol{\mu}, \boldsymbol{\Sigma})=\frac{1}{\sqrt{(2 \pi)^n \operatorname{det}(\boldsymbol{\Sigma})}} \exp \left(-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{\top} \mathbf{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right)

\displaystyle\mathcal{N}\left(\boldsymbol{x} ; \boldsymbol{\mu}, \boldsymbol{\beta}^{-1}\right)=\sqrt{\frac{\operatorname{det}(\boldsymbol{\beta})}{(2 \pi)^n}} \exp \left(-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{\top} \boldsymbol{\beta}(\boldsymbol{x}-\boldsymbol{\mu})\right)

  • 贝塔分布 ——\mu\in[0,1]

\displaystyle\operatorname{Beta}(\mu \mid a, b)=\frac{\Gamma(a+b)}{\Gamma(a) \Gamma(b)} \mu^{a-1}(1-\mu)^{b-1}

\displaystyle\mathbb{E}[\mu]=\frac{a}{a+b}

\displaystyle\operatorname{var}[\mu]=\frac{a b}{(a+b)^2(a+b+1)}

  • 狄利克雷分布 ——贝塔分布的多元扩展

多个连续变量 \mu_i \in[0,1] 的概率分布,满足 \sum_i \mu_i=1

\displaystyle\operatorname{Dir}(\boldsymbol{\mu} \mid \boldsymbol{\alpha})=\frac{\Gamma\left(\sum_i \alpha_i\right)}{\Pi_i \Gamma\left(\alpha_i\right)} \prod_i \mu_i^{\alpha_i-1}

\displaystyle\mathbb{E}\left[\mu_i\right]=\frac{\alpha_i}{\sum_i \alpha_i}

  • 伽马分布 ——\tau>0

\displaystyle\operatorname{Gam}(\tau \mid a, b)=\frac{1}{\Gamma(a)} b^a \tau^{a-1} e^{-b \tau}

\displaystyle\mathbb{E}[\tau]=\frac{a}{b}

\displaystyle\operatorname{var}[\tau]=\frac{a}{b^2}

当取自有限的样本时,熵的公式可以表示为:(注意负号) $$ \mathrm{H}(X)=\sum_i \mathrm{P}\left(x_i\right) \mathrm{I}\left(x_i\right)=-\sum_i \mathrm{P}\left(x_i\right) \log _b \mathrm{P}\left(x_i\right) $$

这里 b 是底,通常可以是 2,e 或 10.

还可以定义事件 XY 分别取 x_iy_j 时的条件熵为 $$ \mathrm{H}(X \mid Y)=-\sum_{i, j} p\left(x_i| y_j\right) \log \frac{p\left(x_i| y_j\right)}{p\left(y_j\right)} $$

KL 散度

衡量两个分布的差异

  • D_{K L}(P \| Q)=\mathbb{E}_{x \sim P}\left[\log \frac{P(x)}{Q(x)}\right]
  • 非负, \mathrm{P}=\mathrm{Q} 时为零
  • D_{K L}(P \| Q) \neq D_{K L}(Q \| P) ,但理论上最小值均当 \mathrm{P}=\mathrm{Q}
D_{K L}(P \| Q)=\mathbb{E}_{x \sim P}\left[\log \frac{P(x)}{Q(x)}\right]=\mathbb{E}_{x \sim P}[\log P(x)]-\mathbb{E}_{x \sim P}[\log Q(x)]
  • 即 P 和 Q 的 KL 散度等于 -H(P)+H(P,Q),后者称之为交叉熵。
本文阅读量