先验概率(prior probability)是指根据以往经验和分析得到的概率。扔硬币 1 2 \frac{1}{2} 21就是先验概率
接收端收到消息 b j b_{j} bj后,求发送端发的是 a i a_{i} ai的概率 后验概率的计算要以先验概率为基础。后验概率可以根据通过贝叶斯公式,用先验概率和似然函数计算出来。
sigmoid函数的值域为(0,1),这与概率的取值范围[0,1]很像,我们可以把sigmoid函数与概率联系起来,那就是伯努利分布。
伯努利分布(又名两点分布或者0-1分布,是一个离散型概率分布瑞。)若伯努利试验成功,则伯努利随机变量取值为1。若伯努利试验失败,则伯努利随机变量取值为0。记其成功概率为p(0 ⩽ \leqslant ⩽ p ⩽ \leqslant ⩽ 1),失败概率为q=1-p。则伯努利分布的概率函数为:
f ( x ∣ p ) = p x ( 1 − p ) 1 − x f(x|p) =p^{x}(1-p)^{1-x} f(x∣p)=px(1−p)1−x
可以知道x=1时的概率为p,x=0时的概率为1-p,即f(1|p) = p,f(0|p) = 1-p。
证明伯努利属于指数大家庭: f ( x ∣ p ) = p x ( 1 − p ) 1 − x f(x|p) =p^{x}(1-p)^{1-x} f(x∣p)=px(1−p)1−x∵ e l n a = a ∴ f ( x ∣ p ) = e l n { p x ( 1 − p ) 1 − x } = e l n p x + l n ( 1 − p ) 1 − x = e x l n p + ( 1 − x ) l n ( 1 − p ) = e x ( l n p − l n ( 1 − p ) ) + l n ( 1 − p ) = e x l n ( p / ( 1 − p ) ) + l n ( 1 − p ) \begin{aligned}\because e^{lna}=a\\ \therefore f(x|p) &=e^{ln\left \{ p^{x}(1-p)^{1-x}\right \}}\\ &=e^{lnp^{x}+ln(1-p)^{1-x}}\\ &=e^{xlnp+(1-x)ln(1-p)}\\ &=e^{x(lnp-ln(1-p)) + ln(1-p)}\\ &=e^{xln(p/(1-p))+ln(1-p)}\end{aligned} ∵elna=a∴f(x∣p)=eln{px(1−p)1−x}=elnpx+ln(1−p)1−x=exlnp+(1−x)ln(1−p)=ex(lnp−ln(1−p))+ln(1−p)=exln(p/(1−p))+ln(1−p)
指数函数可以描述为 f ( x ∣ θ ) = h ( x ) e { y ( θ ) T ( x ) − A ( θ ) } f(x|\theta)=h(x)e^{\{y(\theta)T(x)-A(\theta)\}} f(x∣θ)=h(x)e{y(θ)T(x)−A(θ)},所以伯努利属于指数分布大家庭,对应上面的我们可以知道 y ( θ ) y(\theta) y(θ) y ( θ ) = l n ( p 1 − p ) e y ( θ ) = p 1 − p ( 1 − p ) e y ( θ ) = p e y ( θ ) − p e y ( θ ) = p e y ( θ ) = p e y ( θ ) + p p = e y ( θ ) ( 1 + e y ( θ ) ) p = 1 1 + 1 e y ( θ ) p = 1 1 + e − y ( θ ) y(\theta)=ln(\frac{p}{1-p})\\ e^{y(\theta)}=\frac{p}{1-p}\\ (1-p)e^{y(\theta)}=p e^{y(\theta)}-pe^{y(\theta)}=p\\ e^{y(\theta)}=pe^{y(\theta)}+p\\ p=\frac{e^{y(\theta)}}{(1+e^{y(\theta)})}\\ p= \frac{1}{1+\frac{1}{e^{y(\theta)}}}\\ p=\frac{1}{1+e^{-y(\theta)}} y(θ)=ln(1−pp)ey(θ)=1−pp(1−p)ey(θ)=pey(θ)−pey(θ)=pey(θ)=pey(θ)+pp=(1+ey(θ))ey(θ)p=1+ey(θ)11p=1+e−y(θ)1 可以看到p就是sigmoid函数。
