跳转至

概率论

概率分布

概率分布中,离散的概率分布叫概率质量函数,连续的叫概率密度函数

边缘概率

边缘概率也就是知道一个联合概率P(x,y)P(x,y),求P(x)P(x)的过程,其实就是对另一个变量求和

xx,P(x=x)=yP(x=x,y=y) \forall x \in \text{x}, P(\text{x}=x)=\sum_{y}P(\text{x}=x,\text{y}=y)

连续的自然积分就可以

p(x=x,y=y)dy \int p(\text{x}=x,\text{y}=y)\mathrm{d}y

条件概率

条件概率公式就是,联合概率,除上单个随机变量的概率

P(y=yx=x)=P(y=y,x=x)P(x=x) P(\text{y}=y | \text{x}=x)=\frac{P(\text{y}=y, \text{x}=x)}{P(\text{x}=x)}

链式法则

公式

P(x(1),,x(n))=P(x(1))Πi=2nP(x(i)x(1),,x(i1)) P(\text{x}^{(1)}, \cdots, \text{x}^{(n)})=P(\text{x}^{(1)})\Pi_{i=2}^{n}P(\text{x}^{(i)}|\text{x}^{(1)},\cdots,\text{x}^{(i-1)})

那么这个是什么,那就是提出来一个P(x(1))P(\text{x}^{(1)})之后,所有变量都要以x(1)\text{x}^{(1)}和其之前的所有变量为条件的概率之积。
因为在逐步累乘的过程中,先前的所有都是已经发生的事实,因此直接乘上条件概率即可。

换一个思路,从条件概率公式入手的话,就会发现,如果把所有的条件概率都去掉,变成上下两个联合概率的形式,其实就是前一项的分母和后一项分子是相同的,越到最后其实就剩下了一个所有变量的联合概率了。

这个比较常用的就是联合概率的分解了比如P(a,b,c)=P(ab,c)P(bc)P(c)P(a,b,c)=P(a|b,c)P(b|c)P(c)

独立性和条件独立性

如果两个随机变量的联合概率等于各自概率的乘积,那么两个变量独立,即

xx,yy,p(x=x,y=y)=p(x=x)p(y=y)xy \forall x \in \text{x},y\in \text{y}, p(\text{x}=x,\text{y}=y)=p(\text{x}=x)p(\text{y}=y)\Leftrightarrow \text{x}\perp \text{y}

特殊的,如果有个条件变量,那么则变成

xx,yy,zz,p(x=x,y=yz=z)=p(x=xz=z)p(y=yz=z)xyz \forall x \in \text{x},y\in \text{y},z\in \text{z}, p(\text{x}=x,\text{y}=y | z=\text{z})=p(\text{x}=x | \text{z}=z)p(\text{y}=y|\text{z}=z)\Leftrightarrow \text{x}\perp \text{y}|\text{z}

期望、方差、协方差

期望反映的是随机变量的平均值 方差反映的是对随机变量采样时,随便变量的函数值呈现的差异 协方差反映的是两个变量线性相关性的前度及变量的尺度

期望的公式

ExP[f(x)]=xP(x)f(x)Exp[f(x)]=p(x)f(x)dx \mathbb{E}_ {\text{x}\sim P}[f(x)]=\sum_{x}P(x)f(x) \mathbb{E}_ {\text{x}\sim p}[f(x)]=\int p(x)f(x)\mathrm{d} x

期望是线性的

Ex[αf(x)+βg(x)]=αEx[f(x)]+βEx[g(x)] \mathbb{E}_ {\text{x}}[\alpha f(x)+\beta g(x)]=\alpha\mathbb{E}_ {\text{x}}[f(x)]+\beta\mathbb{E}_ {\text{x}}[g(x)]

概率论中的方差公式,注意这里外层的期望,其实就是随机变量与其均值之差平方的平均值(最后这个平均值值得注意一下,其实是有两个均值的)

Var(f(x))=E[(f(x)E[f(x)])2] \text{Var}(f(x))=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])^2]

统计中的方差公式,其实就是离散的情况

σ2(x)=i=1n(xixˉ)2n \sigma^2(x)=\frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n}

协方差公式

Cov(f(x),g(y))=E[(f(x)E[f(x)])(g(y)E[g(x)])] \text{Cov}(f(x),g(y))=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])(g(y)-\mathbb{E}[g(x)])]

协方差矩阵是一个n×nn\times n的矩阵

Cov(x)i,j=Cov(xi,xj) \text{Cov}(\textbf{x})_ {i,j}=\text{Cov}(\text{x}_ i, \text{x}_ j)

特殊的,

Cov(xi,xi)=Var(xi) \text{Cov}(\text{x}_ i, \text{x}_ i)=\text{Var}(\text{x}_ i)

常见的概率分布

这里就不过多赘述了,一般表述的时候p(x;a,b)p(x;a,b)中,分号后面的a,ba,b表示的是参数

Bernoulli 分布

定义

P(x)={1ϕ,x=0ϕ,x=1 P(\text{x})=\left\{\begin{matrix} 1-\phi,&\text{x}=0 \\ \phi, &\text{x}=1 \end{matrix}\right.

性质

P(x=x)=ϕx(1ϕ)1xEx[x]=0(1ϕ)+1ϕ=ϕVarx(x)=(1ϕ)(0ϕ)+ϕ(1ϕ)=ϕ(1ϕ) P(\text{x}=x)=\phi^{x}(1-\phi)^{1-x} \mathbb{E}_ {\text{x}}[x]=0\cdot (1-\phi)+1\cdot \phi=\phi \text{Var}_ {\text{x}}(\text{x})=(1-\phi)(0-\phi)+\phi(1-\phi)=\phi(1-\phi)

Multinoulli 分布

也叫多项式分布,就是 Bernoulli 分布的扩展

Gasussian 分布

也叫高斯分布、正态分布

N(x;μ,σ2)=12πσ2exp(12σ2(xμ)2) \mathcal{N}(x;\mu,\sigma^2)=\frac{1}{\sqrt{2\pi\sigma^{2}}}\exp(-\frac{1}{2\sigma^2}(x-\mu)^2)

标准正态分布中,μ=0,σ=1\mu=0,\sigma=1

一种常用的替换方法是β1=σ2\beta^{-1}=\sigma^2,便于控制参数

挖个坑,求正态分布的积分,和后面提到的先验知识量最小

根据中心极限定理,正态分布更贴近真实的分布 另外,在具有相同方差的所有可能的概率分布中,正态分布在实数上具有最大的不确定性,因此,我们可以认为正态分布是对模型加入的先验知识量最小的分布

多维正态分布

N(x;μ,Σ)=1(2π)ndet(Σ)exp(12(xμ)TΣ1(xμ)) \mathcal{N}(\mathbf{x};\mathbf{\mu},\mathbf{\Sigma})=\frac{1}{\sqrt{(2\pi)^n\det{(\mathbf{\Sigma})}}}\exp(-\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{T}\mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu}))

结构化概率模型 | 图模型

在有向图中,如果aa影响bb的取值,则从aabb画一条有向的线。跟确切的来说,有向模型对于分布中的每一个随机变量xix_{i},都包含一个影响因子,这个组成xix_i条件概率的影响因子被称作为xix_i的父节点,记为PaG(xi)P_{a_{G}(x_i)}

p(x)=Πip(xiPaG(xi)) p(x)=\Pi_{i}p(x_i | P_{a_{G}(x_i)})

References

  • 《深度学习》,Ian Goodfellow,Yoshua Bengio,Aaron Courville,人民邮电出版社

最后更新: 2022年4月27日 19:47:05
创建日期: 2022年4月27日 19:47:05

评论

回到页面顶部