机器学习|贝叶斯、Sigmoid推导

    xiaoxiao2023-10-23  150

    目录

    推导贝叶斯公式先验概率后验概率LR和linear regression之间的区别推导sigmoid function公式

    1.推导贝叶斯公式

    条件概率     已知B事件发生下,A事件发生的概率。 P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B)=\frac{P(AB)}{P(B)} P(AB)=P(B)P(AB)全概率(百度百科)     它将对一复杂事件A的概率求解问题转化为了在不同情况下发生的简单事件的概率的求和问题。 内容:如果事件 B 1 B_{1} B1 B 2 B_{2} B2 B 3 B_{3} B3 B n B_{n} Bn 构成一个完备事件组,即它们两两互不相容,其和为全集;并且 P ( B i ) P(B_{i}) P(Bi)大于0,则对任一事件A有 P ( A ) = ∑ i = 1 n P ( b i ) P ( A ∣ B i ) P(A)=\sum_{i=1}^{n}P(b_{i})P(A|B_{i}) P(A)=i=1nP(bi)P(ABi) 求解A很困难,我们找到样本空间对齐划分,划分成 B 1 B_{1} B1 B 2 B_{2} B2贝叶斯     贝叶斯是已经知道结果来寻找原因的,即大事件A已经发生的的条件下,小事件 B i B_{i} Bi的概率 P ( B i ∣ A ) = P ( B i ) ∣ P ( A ∣ B i ) ∑ j = 1 n P ( B j ) ∣ P ( A ∣ B j ) P(B_{i}|A)=\frac{P(B_{i})|P(A|B_{i})}{\sum_{j=1}^{n}P(B_{j})|P(A|B_{j})} P(BiA)=j=1nP(Bj)P(ABj)P(Bi)P(ABi) P ( B i ) P(B_{i}) P(Bi)先验概率, P ( B i ∣ A ) P(B_{i}|A) P(BiA)后验概率, P ( A ∣ B i ) P(A|B_{i}) P(ABi)条件概率。贝叶斯是求什么的,举个例子,你今天没有去上课,我们已经知道结果了,你是因为生病,还是不想起等等哪个原因影响的。

    2.先验概率(百度百科)

        先验概率(prior probability)是指根据以往经验和分析得到的概率。扔硬币 1 2 \frac{1}{2} 21就是先验概率

    3.后验概率i

        接收端收到消息 b j b_{j} bj后,求发送端发的是 a i a_{i} ai的概率     后验概率的计算要以先验概率为基础。后验概率可以根据通过贝叶斯公式,用先验概率和似然函数计算出来。

    4.LR和linear regression之间的区别

    LR(Logistic Regression)是逻辑回归,linear regression是线性回归,它们都是广义的线性回归。线性回归的输出是实域上连续值,LR的输出值被Sigmoid函数映射到[0,1]区间,通过设置阀值转换成分类的类别,LR是一个二分类的问题。线性模型的优化目标函数是最小二乘,而逻辑回归则是似然函数,但它们都可以通过梯度下降法求解,似然函数需要加负号转为最小化问题。

    5.推导sigmoid function公式

    sigmoid函数的值域为(0,1),这与概率的取值范围[0,1]很像,我们可以把sigmoid函数与概率联系起来,那就是伯努利分布。

    伯努利分布(又名两点分布或者0-1分布,是一个离散型概率分布瑞。)若伯努利试验成功,则伯努利随机变量取值为1。若伯努利试验失败,则伯努利随机变量取值为0。记其成功概率为p(0 ⩽ \leqslant p ⩽ \leqslant 1),失败概率为q=1-p。则伯努利分布的概率函数为:

    f ( x ∣ p ) = p x ( 1 − p ) 1 − x f(x|p) =p^{x}(1-p)^{1-x} f(xp)=px(1p)1x

        可以知道x=1时的概率为p,x=0时的概率为1-p,即f(1|p) = p,f(0|p) = 1-p。

    证明伯努利属于指数大家庭: f ( x ∣ p ) = p x ( 1 − p ) 1 − x f(x|p) =p^{x}(1-p)^{1-x} f(xp)=px(1p)1x

    ∵ e l n a = a ∴ f ( x ∣ p ) = e l n { p x ( 1 − p ) 1 − x } = e l n p x + l n ( 1 − p ) 1 − x = e x l n p + ( 1 − x ) l n ( 1 − p ) = e x ( l n p − l n ( 1 − p ) ) + l n ( 1 − p ) = e x l n ( p / ( 1 − p ) ) + l n ( 1 − p ) \begin{aligned}\because e^{lna}=a\\ \therefore f(x|p) &=e^{ln\left \{ p^{x}(1-p)^{1-x}\right \}}\\ &=e^{lnp^{x}+ln(1-p)^{1-x}}\\ &=e^{xlnp+(1-x)ln(1-p)}\\ &=e^{x(lnp-ln(1-p)) + ln(1-p)}\\ &=e^{xln(p/(1-p))+ln(1-p)}\end{aligned} elna=af(xp)=eln{px(1p)1x}=elnpx+ln(1p)1x=exlnp+(1x)ln(1p)=ex(lnpln(1p))+ln(1p)=exln(p/(1p))+ln(1p)

        指数函数可以描述为 f ( x ∣ θ ) = h ( x ) e { y ( θ ) T ( x ) − A ( θ ) } f(x|\theta)=h(x)e^{\{y(\theta)T(x)-A(\theta)\}} f(xθ)=h(x)e{y(θ)T(x)A(θ)},所以伯努利属于指数分布大家庭,对应上面的我们可以知道 y ( θ ) y(\theta) y(θ) y ( θ ) = l n ( p 1 − p ) e y ( θ ) = p 1 − p ( 1 − p ) e y ( θ ) = p e y ( θ ) − p e y ( θ ) = p e y ( θ ) = p e y ( θ ) + p p = e y ( θ ) ( 1 + e y ( θ ) ) p = 1 1 + 1 e y ( θ ) p = 1 1 + e − y ( θ ) y(\theta)=ln(\frac{p}{1-p})\\ e^{y(\theta)}=\frac{p}{1-p}\\ (1-p)e^{y(\theta)}=p e^{y(\theta)}-pe^{y(\theta)}=p\\ e^{y(\theta)}=pe^{y(\theta)}+p\\ p=\frac{e^{y(\theta)}}{(1+e^{y(\theta)})}\\ p= \frac{1}{1+\frac{1}{e^{y(\theta)}}}\\ p=\frac{1}{1+e^{-y(\theta)}} y(θ)=ln(1pp)ey(θ)=1pp(1p)ey(θ)=pey(θ)pey(θ)=pey(θ)=pey(θ)+pp=(1+ey(θ))ey(θ)p=1+ey(θ)11p=1+ey(θ)1 可以看到p就是sigmoid函数。

    最新回复(0)