营销型网站费用赤峰北京网站建设
web/
2025/10/7 17:10:07/
文章来源:
营销型网站费用,赤峰北京网站建设,昆明企业网站的建设,北京网站备案查询上一篇文章中提到了一个有趣的实验#xff0c;简单来说就是1-100中有若干个数字是“正确的”#xff0c;只告诉其中一部分“正确的”数字#xff0c;去猜全部“正确的”数字。为了严谨的去研究这个问题#xff0c;我们需要将一些概念进行抽象。首先#xff0c;把提前告知的…上一篇文章中提到了一个有趣的实验简单来说就是1-100中有若干个数字是“正确的”只告诉其中一部分“正确的”数字去猜全部“正确的”数字。为了严谨的去研究这个问题我们需要将一些概念进行抽象。首先把提前告知的其中一部分“正确的”数字定义为样本 全部“正确的”数字定义为假设 我们想要做的就是在给定样本下找到最适合的假设。这里需要说明一点由以上定义容易发现 但是为了一般性暂时不做的假设。有了前面这些准备我们就可以给出likelihood的定义 即给定假设下样本发生的概率。对于离散化的问题如前面提到的那个实验公式还可进一步写成 为样本数。为了引入极大似然估计这个概念我们需要提前约定包含所有假设 的假设空间为。所以极大似然估计MLE就是在中找到一个 使得likelihood达到最大公式写成 。MIT教授Joshua Brett Tenenbaum称之为size principle它意味着模型会倾向于更简单在这里就是 所含元素更少的假设。但是这种结果在机器学习中却不是令人满意的。譬如说如果 很明显 是 的MLE但是实际上他是没有意义的因为它不具有泛化性即无法预测未知的数据。换句话说它其实根本没有进行训练。因此我们需要定义prior。仍然令我们可以做出很多假设譬如 或者 。可以发现 比 有更高的likelihood但是我们不愿意接受 这是因为在我们心中的假设空间中 比 的可能性低的多。所以prior的定义就是假设在假设空间的概率 。不过这种定义实际上是很主观的譬如一个小孩和一个数学教授不仅假设空间不同他们的prior也会不同。但是为了方便处理我们一般令他们的假设空间相同但是改变其中的prior。譬如说对于advance的假设小孩的prior就是0数学教授的prior可能就会稍微高一些。有了likelihood和prior我们可以去定义后验概率posteriori probability 。先给出公式 有些朋友会发现这其实就是贝叶斯公式。顾名思义最大后验概率估计MAP estimate就是找到一个假设 使得后验概率取到最大值。我们可以发现如果 是均匀分布那么后验概率和likelihood是成正比的这时的MLE就等价于MAP estimate。但是真实情况往往不是这样 的分布是多种多样的不过如果我们的样本量N趋于无穷我们仍然可以得到很好的结论下面来证明这一点。由于 的分母是常数所以MAP estimate也可写成如下公式 而 所以 是关于N线性上升的而是常数若同除以 因为 与 无关所以不会影响 但是 会趋于0当趋于无穷。而 所以也就是说当我们有足够多的样本prior的作用就可以忽略不计。在这种情况下MAP estimate会收敛于MLE。最后想谈一谈误差分类我们不可能会产生一个精确的模型我们产生的模型往往是含有噪音的这些噪音可能来自模型并不是真实数据产生的模型采样本身也是有噪音的等等我们也会非常关心这些噪音随着采样是以什么尺度下降的随着神经元数目增加我的模型可以把误差下降到多小训练误差和测试误差应该选择什么优化方式等等有很多很多的误差我们需要对误差分类error decomposition逼近误差Approximation error它衡量了我的模型能最好逼近真实模型到什么程度譬如说用分片线性函数去拟合非线性函数。但是要注意这种逼近是不计成本的也就是说在不计一切代价的情况下如果目标是 我们可以最佳逼近到 。但实际上不计一切成本是不可能的。在八十年代末九十年代初最杰出的结论就是universal approximation theorem万有逼近原理。这个结论是说即使只有一个隐藏层(只要够宽)都可以把神经网络拟合的很好。当然激活函数不可以是仿射函数要不然连最普通的XOR问题都解决不了。2. 泛化误差Generalization error)它衡量了我可以通过数据集得到的最好的模型 和的距离。泛化即推广能力。举个例子给出一系列数据点我们可以找到一条函数将数据点拟合。那么这条函数在我没有见过的数据点的预测能力和表现性能就叫做泛化能力。泛化误差是我们很关心的误差因为理论上已经证明了 可以几乎等于我们的目标函数所以我们泛化误差可以就认为是与的误差3. 优化误差Optimization error它衡量了我可以通过数据集和某一种优化算法得到的最好的模型 和的举例距离。所以最终我们可以得到一个等式 直观图如下参考Machine Learning_A Probabilistic Perspective[Murphy 2012-08-24]bilibili数学学院本科课程统计计算与机器学习1
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/88590.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!