搭建微网站平台辽宁建设厅的证到底在哪个网站查
搭建微网站平台,辽宁建设厅的证到底在哪个网站查,网站建设定制价格明细表,简单模板网站制作时间瑞士数学家雅克伯努利(Jacques Bernoulli,1654#xff5e;1705)首次研究独立重复试验(每次成功率为p)。在他去世后的第8年(1713年)#xff0c;他侄子尼克拉斯出版了伯努利的著作《推测术》。在书中#xff0c;伯努利指出了如果这样的试验次数足够大#xff0c;那么成功次数…瑞士数学家雅克·伯努利(Jacques Bernoulli,16541705)首次研究独立重复试验(每次成功率为p)。在他去世后的第8年(1713年)他侄子尼克拉斯出版了伯努利的著作《推测术》。在书中伯努利指出了如果这样的试验次数足够大那么成功次数所占的比例以概率1接近p。 雅克·伯努利是这个最著名的数学家庭的第一代。在后来的三代里一共有8到12个伯努利在概率论、统计学和数学上做出了杰出的基础性贡献。
1. 伯努利分布
伯努利分布(Bernoulli distribution)又名两点分布或0-1分布介绍伯努利分布前首先需要引入伯努利试验Bernoulli trial。
伯努利试验是只有两种可能结果的单次随机试验即对于一个随机变量X而言 伯努利试验都可以表达为“是或否”的问题。例如抛一次硬币是正面向上吗刚出生的小孩是个女孩吗等等
如果试验E是一个伯努利试验将E独立重复地进行n次则称这一串重复的独立试验为n重伯努利试验。进行一次伯努利试验成功(X1)概率为p(0p1)失败(X0)概率为1-p则称随机变量X服从伯努利分布。伯努利分布是离散型概率分布其概率质量函数为
2. 二项分布
二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布。 二项分布是指在只有两个结果的n次独立的伯努利试验中所期望的结果出现次数的概率。在单次试验中结果A出现的概率为p结果B出现的概率为qpq1。那么在n10即10次试验中结果A出现0次、1次、……、10次的概率各是多少呢这样的概率分布呈现出什么特征呢这就是二项分布所研究的内容。 如果试验E是一个n重伯努利试验每次伯努利试验的成功概率为pX代表成功的次数则X的概率分布是二项分布记为X~B(n,p)其概率质量函数为 显然 从定义可以看出伯努利分布是二项分布在n1时的特例 二项分布的典型例子是扔硬币硬币正面朝上概率为p, 重复扔n次硬币k次为正面的概率即为一个二项分布概率。
举个例子 https://zhuanlan.zhihu.com/p/24692791
3. 多项分布
多项式分布(Multinomial Distribution)是二项式分布的推广。二项式做n次伯努利实验规定了每次试验的结果只有两个如果现在还是做n次试验只不过每次试验的结果可以有多m个且m个结果发生的概率互斥且和为1则发生其中一个结果X次的概率就是多项式分布。
扔骰子是典型的多项式分布。扔骰子不同于扔硬币骰子有6个面对应6个不同的点数这样单次每个点数朝上的概率都是1/6对应p1~p6它们的值不一定都是1/6只要和为1且互斥即可比如一个形状不规则的骰子,重复扔n次如果问有k次都是点数6朝上的概率就是 多项式分布一般的概率质量函数为
4. 贝塔分布
在介绍贝塔分布(Beta distribution)之前需要先明确一下先验概率、后验概率、似然函数以及共轭分布的概念。
先验概率
先验概率就是事情尚未发生前我们对该事发生概率的估计。利用过去历史资料计算得到的先验概率称为客观先验概率 当历史资料无从取得或资料不完全时凭人们的主观经验来判断而得到的先验概率称为主观先验概率。例如抛一枚硬币头向上的概率为0.5这就是主观先验概率。
后验概率
后验概率是指通过调查或其它方式获取新的附加信息利用贝叶斯公式对先验概率进行修正而后得到的概率。
先验概率和后验概率的关系
关系 区别
一种表述
先验概率不是根据有关自然状态的全部资料测定的而只是利用现有的材料(主要是历史资料)计算的后验概率使用了有关自然状态更加全面的资料既有先验概率资料也有补充资料。
另外一种表述
先验概率是在缺乏某个事实的情况下描述一个变量后验概率Probability of outcomes of an experiment after it has been performed and a certain event has occured.是在考虑了一个事实之后的条件概率。
似然函数
似然与概率的概念
在频率推论中似然函数常常简称为似然是一个在给定了数据以及模型中关于参数的函数。在非正式情况下“似然”通常被用作“概率”的同义词。
在数理统计中两个术语则有不同的意思。“概率”描述了给定模型参数后描述结果的合理性而不涉及任何观察到的数据。而“似然”则描述了给定了特定观测值后描述模型参数是否合理。
Suppose you have a probability model with parameters θ. p(x | θ) has two names. It can be called the probability of x (given θ), or the likelihood of θ (given that x was observed). The likelihood is a function of θ. Here are a couple of simple uses:
If you observe x and want to estimate the θ that gave rise to it, the maximum-likelihood principle says to choose the maximum-likelihood θ – in other words, the θ that maximizes p(x | θ).
This contrasts with the maximum-a-posteriori or MAP estimate, which is the θ that maximizes p(θ | x). Since x is fixed, this is equivalent to maximizing p(θ) p(x | θ), the product of the prior probability of θ with the likelihood of θ.
You can do more with these functions of θ than just maximize them. Much is known about their typical shape as the size of the dataset x increases. L(θ|x)f(x|θ) 这个等式表示的是对于事件发生的两种角度的看法。其实等式两边都是表示的这个事件发生的概率或者说可能性。 在给定一个样本x后我们去想这个样本出现的可能性到底是多大。 统计学的观点始终是认为样本的出现是基于一个分布的。那么我们去假设这个分布为f里面有参数θ\thetaθ。对于不同的θ\thetaθ样本的分布不一样。 f(x|θ)表示的就是在给定参数θ\thetaθ的情况下x出现的可能性多大。 L(θ|x)表示的是在给定样本x的时候哪个参数θ\thetaθ使得x出现的可能性多大。 所以其实这个等式要表示的核心意思都是在给一个θ\thetaθ和一个样本x的时候整个事件发生的可能性多大。 概率probability)和似然likelihood)都是指可能性都可以被称为概率但在统计应用中有所区别。
概率是给定某一参数值求某一结果的可能性。 例如抛一枚匀质硬币抛10次6次正面向上的可能性多大 解读“匀质硬币”表明参数值是0.5“抛10次六次正面向上”这是一个结果概率probability)是求这一结果的可能性。 用公式算结果是 概率probability)、似然likelihood)、极大似然法 n10P0.5,Q0.5,计算得0.205 即匀质硬币抛10次6次向上的概率是0.205. 似然是给定某一结果求某一参数值的可能性。 例如抛一枚硬币抛10次结果是6次正面向上其是匀质的可能性多大 解读“抛10次结果是6次正面向上”这是一个给定的结果问“匀质”的可能性即求参数值0.5的可能性。 计算公式与上面相同。结果相同只是视角不同。 与此相联系的是最大似然法就本例说事问题就变成“抛10次结果是6次正面朝上那么参数P的最大可能值是什么”当然一切都有可能但可能性不同。怎么求出可能性最大的即最像的的呢最基本的办法是一个一个试先求参数值为0.01的可能性即概率再算参数值为0.02的概率依此类推直到0.99的概率看看哪个参数值的概率最大就把它作为参数的估计值这就是最大似然法。
R软件实现
“抛10次结果是6次正面向上”参数值为0.01的概率是 dbinom(6,10,0.01) [1] 2.017252e-10 “抛10次结果是6次正面向上”参数值为0.02的概率是 dbinom(6,10,0.02) [1] 1.239663e-08 …… “抛10次结果是6次正面向上”参数值为0.2的概率是dbinom(6,10,0.2) [1] 0.005505024 “抛10次结果是6次正面向上”参数值为0.3的概率是 dbinom(6,10,0.3) [1] 0.03675691 “抛10次结果是6次正面向上”参数值为0.4的概率是 dbinom(6,10,0.4) [1] 0.1114767 “抛10次结果是6次正面向上”参数值为0.5的概率是 dbinom(6,10,0.5) [1] 0.2050781 “抛10次结果是6次正面向上”参数值为0.6的概率是 dbinom(6,10,0.6) [1] 0.2508227 “抛10次结果是6次正面向上”参数值为0.7的概率是 dbinom(6,10,0.7) [1] 0.2001209 不用再试了结果出来了参数值为0.6的概率最大因此0.6就是用极大似然法求出的参数估计值。
上面是给了二项分布的一个结果求参数p的最大似然估计的过程。如果给了多个结果即给出一个二项分布的样本为x1,x2,……,xn那么就可以推导极大似然法的公式了。公式为p(ΣX)/(N*n)
证明过程
下面举一个例子
有一个硬币它有θ的概率会正面向上有1-θ的概率反面向上。θ是存在的但是你不知道它是多少。为了获得θ的值你做了一个实验将硬币抛10次得到了一个正反序列xHHTTHTHHHH。 无论θ的值是多少这个序列的概率值为 θ⋅θ⋅(1-θ)⋅(1-θ)⋅θ⋅(1-θ)⋅θ⋅θ⋅θ⋅θ θ⁷ (1-θ)³ 比如如果θ值为0则得到这个序列的概率值为0。 如果θ值为1/2概率值为1/1024。 但是我们应该得到一个更大的概率值所以我们尝试了所有θ可取的值画出了下图 这个曲线就是θ的似然函数通过了解在某一假设下已知数据发生的可能性来评价哪一个假设更接近θ的真实值。 如图所示最有可能的假设是在θ0.7的时候取到。但是你无须得出最终的结论θ0.7。事实上根据贝叶斯法则0.7是一个不太可能的取值如果你知道几乎所有的硬币都是均质的那么这个实验并没有提供足够的证据来说服你它是均质的。但是0.7却是最大似然估计的取值。 因为这里仅仅试验了一次得到的样本太少所以最终求出的最大似然值偏差较大如果经过多次试验扩充样本空间则最终求得的最大似然估计将接近真实值0.5。
从离散随机变量角度看待“似然”与“概率”
当我们在处理离散型随机变量时候例如掷10硬币的结果这样的数据时候我们可以根据观测到的结果计算这种结果出现的概率概率当然这有一个前提是硬币是均匀的和掷硬币的事件都是独立的。 这时我们想要计算的就是“概率”用P(O∣θ)P(O | \theta)P(O∣θ)来表示。换个角度可以理解为当给定了特定的参数θ\thetaθ时候P(O∣θ)P(O | \theta)P(O∣θ)就是我们观测到OOO观测值时候的概率。 但是当我们想来刻画一个实际的随机过程时候我们常常并不知道θ\thetaθ参数是什么。我们只有观测值OOO基于这个观测值我们往往想得到一个关于θ\thetaθ的估计值θ^\hat{\theta}θ^。当给定θ\thetaθ 时候我们可以得到观测值OOO是P(O∣θ)P (O | \theta)P(O∣θ)。当然反过来对于估计过程是在选择一个θ^\hat{\theta}θ^最大值这个值就等价于真实观测值OOO的概率。换而言之是在寻找一个值θ^\hat{\theta}θ^的最大化使得
这个L(θ∣O)L(\theta | O)L(θ∣O)就叫做似然函数。 很明显这是一个在已知观测值OOO为条件关于未知参数θ\thetaθ的似然函数。
从连续型随机变量角度看待“似然”与“概率”
对于连续型随机变量与离散随机变量有一个非常重要的区别就是人们不会去关注给定θ\thetaθ后观测值OOO得概率。 因为连续型随机变量存在无限多的结果无限可分这些结果是无法被穷尽的。 我们给出某一个结果对应的概率是没有意义的连续型随机变量产生的结果是无限的 落在任何一个“可能的结果”上的概率几乎都为0也就是P(O∣θ)0)P(O | \theta) 0 )P(O∣θ)0)。 当然可以变换一种方式既给出落在结果区间范围上的概率而非给出单个结果的概率来解决这个问题。 对于观测值OOO可以用概率密度函数(PDF:probability density function)来表示为f(O∣θ)f(O|\theta)f(O∣θ)。 因此在连续的情况下我们通过最大化以下函数来估计观察到的结果OOO
在这种情况下我们不能在技术上断言我们找到最大化观察OOO的概率的参数值因为我们最大化的是与观察结果OOO相关的PDF。
“似然”和“概率”是站在两个角度看待问题 对于这个函数
输入有两个OOO表示某一个具体的数据θ\thetaθ表示模型的参数。
如果θ\thetaθ是已知确定的OOO是变量这个函数叫做概率函数(probability function)它描述对于不同的样本OOO其出现概率是多少。如果OOO是已知确定的θ\thetaθ是变量这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数出现x这个样本点的概率是多少。
似然与概率的区别与联系
1、似然与概率的区别
在英语语境里likelihood 和 probability 的日常使用是可以互换的都表示对机会 (chance) 的同义替代。但在数学中probability 这一指代是有严格的定义的即符合柯尔莫果洛夫公理 (Kolmogorov axioms) 的一种数学对象换句话说不是所有的可以用0到1之间的数所表示的对象都能称为概率而 likelihood (function) 这一概念是由Fisher提出他采用这个词也是为了凸显他所要表述的数学对象既和 probability 有千丝万缕的联系但又不完全一样的这一感觉。中文把它们一个翻译为概率一个翻译为似然也是独具匠心。 除此之外统计学中的另一常见概念置信区间(confidence interval)中的置信度(confidence level) 或者称为置信系数 (confidence coefficient) 也不是概率。换句话说构建关于总体均值的95%的置信区间里的95%不是概率意义下的0.95即使它也是0到1之间的代表机会chance的一个度量: Neyman的原话是 … in the long run he will be correct in 99% (the assumed value of ) of all cases … Hence the frequency of actually correct statements will approach 更常见的ppp-值(ppp-value)严格来说其本身是一个(恰好位于0到1之间的)统计量(即样本随机变量的函数)所以ppp-值也不是概率。一种方便区别是概率还是似然的方法是根据定义谁谁谁的概率中谁谁谁只能是概率空间中的事件换句话说我们只能说事件(发生)的概率是多少多少(因为事件具有概率结构从而刻画随机性所以才能谈概率)而谁谁谁的似然中的谁谁谁只能是参数比如说参数等于θ\thetaθ时的似然是多少。 所以从定义上似然函数和密度函数是完全不同的两个数学对象前者是关于θ\thetaθ的函数后者是关于x的函数。所以这里的等号 理解为函数值形式的相等而不是两个函数本身是同一函数(根据函数相等的定义函数相等当且仅当定义域相等并且对应关系相等)。
2、似然与概率的联系 后验概率分布函数与先验概率分布函数具有相同形式
好了有了以上先验知识后终于可以引入贝塔分布啦首先考虑一点在试验数据比较少的情况下直接用最大似然法估计二项分布的参数可能会出现过拟合的现象比如扔硬币三次都是正面那么最大似然法预测以后的所有抛硬币结果都是正面。为了避免这种情况的发生可以考虑引入先验概率分布p(u)p(u)p(u)来控制参数uuu防止出现过拟合现象。那么问题现在转为如何选择p(u)p(u)p(u) 二项分布的似然函数为就是二项分布除归一化参数之外的后面那部分似然函数之所以不是pdf是因为它不需要归一化
5. 狄利克雷分布
狄利克雷分布(Dirichlet distribution)是多项分布的共轭分布也就是它与多项分布具有相同形式的分布函数。 概率分布函数为
6. 后记
本篇博文只是将伯努利分布、二项分布、多项分布、贝塔分布和狄利克雷分布做了简单的介绍其中涉及到大量的概率基础和高等数学的知识文中的介绍只是粗浅的把这些分布的概念作了大概介绍没有对这些分布的产生历史做介绍。我想更好的介绍方式应是从数学史的角度将这几项分布的发现按照历史规律来展现这样会更直观、形象。后续再补吧
https://blog.csdn.net/kingzone_2008/article/details/80584743 https://zhuanlan.zhihu.com/p/24692791 似然 https://www.zhihu.com/question/54082000/answer/145495695
https://www.zhihu.com/question/54082000/answer/138115757
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/92530.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!