欢迎关注ScalersTalk。IT人,搞技术,聊英语,玩口译,话学术,谈生活。学习成长,笔耕不辍。回复m查看文章列表,或者访问S君小站ScalersTalk.com
你现在看到的是技术系列文章,目前已经发表的文章如下,回复括号数字可阅读。
海量数据处理系列的前两篇:
[213]签名:集合的归纳描述
[207]海量数据相似性检测:文档的抽块处理(Shingling)
其他系列:
[152]清高与小我:谈技术人员的优越感(4)
[150]清高与小我:谈技术人员的优越感(3)
[149]清高与小我:谈技术人员的优越感(2)
[148]清高与小我:谈技术人员的优越感(1)
[112]扯点密码学:可证明安全随笔
[250]机器学习成长笔记(1)
[251]机器学习三要素:机器学习成长笔记(2)
[253]为什么需要机器学习:机器学习笔记(3)
[254]有监督学习和无监督学习:机器学习笔记(4)
公式采用Latex编辑,可以在原文链接里看到转化后的版本。
先验概率
Prior probability
在贝叶斯统计中,先验概率分布,即关于某个变量$$p$$的概率分布,是在获得某些信息或者依据前,对$$p$$的不确定性进行猜测。例如,$$p$$可以是抢火车票开始时,抢到某一车次的概率。这是对不确定性(而不是随机性)赋予一个量化的数值的表征,这个量化数值可以是一个参数,或者是一个潜在的变量。
先验概率仅仅依赖于主观上的经验估计,也就是事先根据已有的知识的推断,
在应用贝叶斯理论时,通常将先验概率乘以似然函数(likelihoodfunction)再归一化后,得到后验概率分布,后验概率分布即在已知给定的数据后,对不确定性的条件分布。
似然函数
似然函数(likelihood function),也称作似然,是一个关于统计模型参数的函数。也就是这个函数中自变量是统计模型的参数。对于结果$$x$$,在参数集合$$\theta$$上的似然,就是在给定这些参数值的基础上,观察到的结果的概率$$\mathcal{L}(\theta|x) = P(x | \theta)$$。也就是说,似然是关于参数的函数,在参数给定的条件下,对于观察到的$$x$$的值的条件分布。
似然函数在统计推测中发挥重要的作用,因为它是关于统计参数的函数,所以可以用来评估一组统计的参数,也就是说在一组统计方案的参数中,可以用似然函数做筛选。在非正式的语境下,“似然”会和“概率”混着用;但是严格区分的话,在统计上,二者是有不同。
不同就在于,观察值$$x$$与参数$$\theta$$的不同的角色。概率是用于描述一个函数,这个函数是在给定参数值的情况下的关于观察值的函数。例如,已知一个硬币是均匀的(在抛落中,正反面的概率相等),那连续10次正面朝上的概率是多少?这是个概率。
而似然是用于在给定一个观察值时,关于用于描述参数的情况。例如,如果一个硬币在10次抛落中正面均朝上,那硬币是均匀的(在抛落中,正反面的概率相等)概率是多少?这里用了概率这个词,但是实质上是“可能性”,也就是似然了。
后验概率
Posterior probability
后验概率是关于随机事件或者不确定性断言的条件概率,是在相关证据或者背景给定并纳入考虑之后的条件概率。后验概率分布就是未知量作为随机变量的概率分布,并且是在基于实验或者调查所获得的信息上的条件分布。“后验”在这里意思是,考虑相关事件已经被检视并且能够得到一些信息。
后验概率是关于参数$$\theta$$在给定的证据信息$$X$$下的概率:$$p(\theta|x)$$。
若对比后验概率和似然函数,似然函数是在给定参数下的证据信息$$X$$的概率分布:$$p(x|\theta)$$。
二者有如下关系:
我们用$$p(\theta)$$表示概率分布函数,用$$p(x|\theta)$$表示观测值$$x$$的似然函数。后验概率定义如下:
\[ p(\theta|x) = \frac{p(x|\theta)p(\theta)}{p(x)}\]
鉴于分母不变,可以表达成如下正比关系:
\[\text{Posteriorprobability} \propto \text{Likelihood} \times \text{Prior probability}\]。
公式采用Latex编辑,可以在原文链接里看到转化后的版本。
回复“100小时”查看口译100小时训练计划;回复“十万字”查看十万字视译计划。
S君的口译100小时、十万字视译训练交流QQ群,欢迎加入(群号为231441722)
S君个人微信号,ScalersTalker欢迎添加。
如果你觉得S君的文章对你有用,让你有所思有所想有所行动,不用感谢,打赏请S君喝杯咖啡就行:P 。支付宝账号是
scalerstalk [at] gmail [dot] com
想看更多相关文章,关注 ScalersTalk 回复任意小于标题括号中的三位数字查看。或者去我的站点 ScalersTalk.com 查看历史文章。