概率论
概率分布
概率分布中,离散的概率分布叫概率质量函数,连续的叫概率密度函数
边缘概率
边缘概率也就是知道一个联合概率P(x,y),求P(x)的过程,其实就是对另一个变量求和
∀x∈x,P(x=x)=y∑P(x=x,y=y)
连续的自然积分就可以
∫p(x=x,y=y)dy
条件概率
条件概率公式就是,联合概率,除上单个随机变量的概率
P(y=y∣x=x)=P(x=x)P(y=y,x=x)
链式法则
公式
P(x(1),⋯,x(n))=P(x(1))Πi=2nP(x(i)∣x(1),⋯,x(i−1))
那么这个是什么,那就是提出来一个P(x(1))之后,所有变量都要以x(1)和其之前的所有变量为条件的概率之积。
因为在逐步累乘的过程中,先前的所有都是已经发生的事实,因此直接乘上条件概率即可。
换一个思路,从条件概率公式入手的话,就会发现,如果把所有的条件概率都去掉,变成上下两个联合概率的形式,其实就是前一项的分母和后一项分子是相同的,越到最后其实就剩下了一个所有变量的联合概率了。
这个比较常用的就是联合概率的分解了比如P(a,b,c)=P(a∣b,c)P(b∣c)P(c)
独立性和条件独立性
如果两个随机变量的联合概率等于各自概率的乘积,那么两个变量独立,即
∀x∈x,y∈y,p(x=x,y=y)=p(x=x)p(y=y)⇔x⊥y
特殊的,如果有个条件变量,那么则变成
∀x∈x,y∈y,z∈z,p(x=x,y=y∣z=z)=p(x=x∣z=z)p(y=y∣z=z)⇔x⊥y∣z
期望、方差、协方差
期望反映的是随机变量的平均值
方差反映的是对随机变量采样时,随便变量的函数值呈现的差异
协方差反映的是两个变量线性相关性的前度及变量的尺度
期望的公式
Ex∼P[f(x)]=x∑P(x)f(x)Ex∼p[f(x)]=∫p(x)f(x)dx
期望是线性的
Ex[αf(x)+βg(x)]=αEx[f(x)]+βEx[g(x)]
概率论中的方差公式,注意这里外层的期望,其实就是随机变量与其均值之差平方的平均值(最后这个平均值值得注意一下,其实是有两个均值的)
Var(f(x))=E[(f(x)−E[f(x)])2]
统计中的方差公式,其实就是离散的情况
σ2(x)=n∑i=1n(xi−xˉ)2
协方差公式
Cov(f(x),g(y))=E[(f(x)−E[f(x)])(g(y)−E[g(x)])]
协方差矩阵是一个n×n的矩阵
Cov(x)i,j=Cov(xi,xj)
特殊的,
Cov(xi,xi)=Var(xi)
常见的概率分布
这里就不过多赘述了,一般表述的时候p(x;a,b)中,分号后面的a,b表示的是参数
Bernoulli 分布
定义
P(x)={1−ϕ,ϕ,x=0x=1
性质
P(x=x)=ϕx(1−ϕ)1−xEx[x]=0⋅(1−ϕ)+1⋅ϕ=ϕVarx(x)=(1−ϕ)(0−ϕ)+ϕ(1−ϕ)=ϕ(1−ϕ)
Multinoulli 分布
也叫多项式分布,就是 Bernoulli 分布的扩展
Gasussian 分布
也叫高斯分布、正态分布
N(x;μ,σ2)=2πσ21exp(−2σ21(x−μ)2)
标准正态分布中,μ=0,σ=1
一种常用的替换方法是β−1=σ2,便于控制参数
挖个坑,求正态分布的积分,和后面提到的先验知识量最小
根据中心极限定理,正态分布更贴近真实的分布
另外,在具有相同方差的所有可能的概率分布中,正态分布在实数上具有最大的不确定性,因此,我们可以认为正态分布是对模型加入的先验知识量最小的分布
多维正态分布
N(x;μ,Σ)=(2π)ndet(Σ)1exp(−21(x−μ)TΣ−1(x−μ))
结构化概率模型 | 图模型
在有向图中,如果a影响b的取值,则从a到b画一条有向的线。跟确切的来说,有向模型对于分布中的每一个随机变量xi,都包含一个影响因子,这个组成xi条件概率的影响因子被称作为xi的父节点,记为PaG(xi)
p(x)=Πip(xi∣PaG(xi))
References
- 《深度学习》,Ian Goodfellow,Yoshua Bengio,Aaron Courville,人民邮电出版社
最后更新:
2022年4月27日 19:47:05
创建日期:
2022年4月27日 19:47:05