我们先交待基本概率公式: 设A,B是两个事件,且P(B)>0,则在事件B发生的条件下,事件A发生的条件概率(conditional probability): (1) P ( A ∣ B ) = P ( A B ) / P ( B ) , P(A|B) = P(AB)/P(B), \tag{1} P(A∣B)=P(AB)/P(B),(1) 由条件概率(1)得到乘法公式: (2) P ( A B ) = P ( A ∣ B ) P ( B ) = P ( B ∣ A ) P ( A ) , P(AB) = P(A|B)P(B) = P(B|A)P(A), \tag{2} P(AB)=P(A∣B)P(B)=P(B∣A)P(A),(2) 乘法公式的推广:对于任何正整数 n ≥ 2 n \geq 2 n≥2,当 P ( A 1 A 2 … A n − 1 ) > 0 P\left(A_{1} A_{2} \dots A_{n-1}\right)>0 P(A1A2…An−1)>0时,有: (3) P ( A 1 A 2 … A n − 1 A n ) = P ( A 1 ) P ( A 2 ∣ A 1 ) P ( A 3 ∣ A 1 A 2 ) … P ( A n ∣ A 1 A 2 … A n − 1 ) \mathrm{P}\left(\mathrm{A}_{1} \mathrm{A}_{2} \ldots \mathrm{A}_{\mathrm{n}-1} \mathrm{A}_{\mathrm{n}}\right)=\mathrm{P}\left(\mathrm{A}_{1}\right) \mathrm{P}\left(\mathrm{A}_{2} | \mathrm{A}_{1}\right) \mathrm{P}\left(\mathrm{A}_{3} | \mathrm{A}_{1} \mathrm{A}_{2}\right) \ldots \mathrm{P}\left(\mathrm{A}_{\mathrm{n}} | \mathrm{A}_{1} \mathrm{A}_{2} \ldots \mathrm{A}_{\mathrm{n}-1}\right) \tag{3} P(A1A2…An−1An)=P(A1)P(A2∣A1)P(A3∣A1A2)…P(An∣A1A2…An−1)(3) 从而可以推导出全概率公式: 如果事件组 B 1 B_1 B1, B 2 B_2 B2,…满足 1. B 1 B_1 B1, B 2 B_2 B2,…两两互斥,即 B i ∩ B j = ∅ B_{i} \cap B_{j}=\emptyset Bi∩Bj=∅, i 不 等 于 j i 不等于 j i不等于j,i,j=1,2,…,且 P ( B i ) > 0 , i = 1 , 2 , . . . ; P(B_i)>0,i=1,2,...; P(Bi)>0,i=1,2,...; 2. B 1 ∪ B 2 ∪ … = Ω \mathrm{B}_{1} \cup \mathrm{B}_{2} \cup \ldots=\Omega B1∪B2∪…=Ω,则称事件组 B 1 B_1 B1, B 2 B_2 B2,…是样本空间 Ω \Omega Ω的一个划分 设 B 1 B_1 B1, B 2 B_2 B2,…是样本空间 Ω \Omega Ω的一个划分,A为任一事件,则: (4) P ( A ) = ∑ i = 1 ∞ P ( B i ) P ( A ∣ B i ) , P(A)=\sum_{i=1}^{\infty} P\left(B_{i}\right) P\left(A | B_{i}\right),\tag{4} P(A)=i=1∑∞P(Bi)P(A∣Bi),(4)
1.与全概率公式解决的问题相反,贝叶斯公式是建立在条件概率的基础上寻找事件发生的原因(即大事件A已经发生的条件下,分割中的小事件 B i B_i Bi的概率),设 B 1 B_1 B1, B 2 B_2 B2,…是样本空间Ω的一个划分,则对任一事件A(P(A)>0),有 (5) P ( B i ∣ A ) = P ( A B i ) P ( A ) = P ( B i ) P ( A ∣ B i ) ∑ j = 1 n P ( B j ) P ( A ∣ B j ) , P\left(B_{i} | A\right)=\frac{P(AB_i)}{P(A)}= \frac{P\left(B_{i}\right) P\left(A | B_{i}\right)}{\sum_{j=1}^{n} P\left(B_{j}\right) P\left(A | B_{j}\right)},\tag{5} P(Bi∣A)=P(A)P(ABi)=∑j=1nP(Bj)P(A∣Bj)P(Bi)P(A∣Bi),(5)
这个是来自李航统计学习方法。 如果按照李宏毅老师的做法
为了很好的说明这个问题,在这里举一个例子: 玩英雄联盟占到中国总人口的60%,不玩英雄联盟的人数占到40%:
为了便于数学叙述,这里我们用变量X来表示取值情况,根据概率的定义以及加法原则,我们可以写出如下表达式:
P(X=玩lol)=0.6;P(X=不玩lol)=0.4,这个概率是统计得到的,即X的概率分布已知,我们称其为先验概率(prior probability);
另外玩lol中80%是男性,20%是小姐姐,不玩lol中20%是男性,80%是小姐姐,这里我用离散变量Y表示性别取值,同时写出相应的条件概率分布:、 P(Y=男性|X=玩lol)=0.8,P(Y=小姐姐|X=玩lol)=0.2
P(Y=男性|X=不玩lol)=0.2,P(Y=小姐姐|X=不玩lol)=0.8 那么我想问在已知玩家为男性的情况下,他是lol玩家的概率是多少:
依据贝叶斯公式(5)可得:
P(X=玩lol|Y=男性)=P(X=玩lol, Y=男性)/P(Y=男性) =P(Y=男性|X=玩lol)*P(X=玩lol)/ [ P(Y=男性|X=玩lol)*P(X=玩lol)+P(Y=男性|X=不玩lol)*P(X=不玩lol)] 这个概率就是后验概率。
个人感觉逻辑回归和线性回归首先都是广义的线性回归, 其次经典线性模型的优化目标函数是最小二乘,而逻辑回归则是似然函数。 逻辑回归是分类算法,llinear regression是回归算法 两者前面的公式一样,逻辑回归后续会加上激活函数,让输出限制在0到1之间,这样可以更小的减少异常点的干扰,鲁班性更好
先给出sigmoid funciton的公式: σ ( z ) = 1 1 + e − z \sigma(z)=\frac{1}{1+e^{-z}} σ(z)=1+e−z1 这个公式我们只知道怎么用,却不知道它怎么来的,也没有底层的含义。我就搬了同学的解答来说明: 首先假设我们有两个class:class1和class2,并且给出一个sample x,我们的目标是求x属于C1的概率是多少。 这个我们可以贝叶斯公式(5)来轻松得到,也就是: P ( C 1 ∣ x ) = P ( x ∣ C 1 ) P ( C 1 ) P ( x ) P\left(C_{1} | x\right)=\frac{P\left(x | C_{1}\right) P\left(C_{1}\right)}{P(x)} P(C1∣x)=P(x)P(x∣C1)P(C1) 其中: P ( x ) = P ( x ∣ C 1 ) P ( C 1 ) + P ( x ∣ C 2 ) P ( C 2 ) P(x)=P\left(x | C_{1}\right) P\left(C_{1}\right)+P\left(x | C_{2}\right) P\left(C_{2}\right) P(x)=P(x∣C1)P(C1)+P(x∣C2)P(C2) 把公式带到公式分母中: P ( C 1 ∣ x ) = P ( x ∣ C 1 ) P ( C 1 ) P ( x ∣ C 1 ) P ( C 1 ) + P ( x ∣ C 2 ) P ( C 2 ) P\left(C_{1} | x\right)=\frac{P\left(x | C_{1}\right) P\left(C_{1}\right)}{P\left(x | C_{1}\right) P\left(C_{1}\right)+P\left(x | C_{2}\right) P\left(C_{2}\right)} P(C1∣x)=P(x∣C1)P(C1)+P(x∣C2)P(C2)P(x∣C1)P(C1) 然后同时除以分子就变成了: P ( C 1 ∣ x ) = 1 1 + P ( x ∣ C 2 ) P ( C 2 ) P ( x ∣ C 1 ) P ( C 1 ) P\left(C_{1} | x\right)=\frac{1}{1+\frac{P\left(x | C_{2}\right) P\left(C_{2}\right)}{P\left(x | C_{1}\right) P\left(C_{1}\right)}} P(C1∣x)=1+P(x∣C1)P(C1)P(x∣C2)P(C2)1 设: z = ln P ( x ∣ C 1 ) P ( C 1 ) P ( x ∣ C 2 ) P ( C 2 ) z=\ln \frac{P\left(x | C_{1}\right) P\left(C_{1}\right)}{P\left(x | C_{2}\right) P\left(C_{2}\right)} z=lnP(x∣C2)P(C2)P(x∣C1)P(C1) 把z带入公式,可以得到: σ ( z ) = 1 1 + e − z \sigma(z)=\frac{1}{1+e^{-z}} σ(z)=1+e−z1 我基本照搬,而且那个链接还有更加详细的解释,我就不在赘述。
https://zhuanlan.zhihu.com/p/26464206 https://www.julyedu.com/question/big/kp_id/23/ques_id/983 https://blog.csdn.net/Crafts_Neo/article/details/90520609 https://blog.csdn.net/chixujohnny/article/details/78639554