贝叶斯学习笔记 - 详解

news/2025/9/30 8:38:06/文章来源:https://www.cnblogs.com/ljbguanli/p/19119918

贝叶斯学习笔记 - 详解

贝叶斯原理:概率推理的核心

贝叶斯方法的核心思想在于利用“条件概率”进行推理。简单来说,就是当我们获得新的信息时,如何更新我们对某个事件发生概率的看法。这就像侦探破案,每获得一条新的线索,都会调整对案件真相的判断。贝叶斯原理的基本公式如下:

P(A∣B)=P(B∣A)⋅P(A)P(B)P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}P(AB)=P(B)P(BA)P(A)

让我们来拆解这个公式的每个部分:

  • P(A∣B)P(A|B)P(AB):后验概率(Posterior Probability)

    • 这是我们最关心的部分。它表示在事件B已经发生的情况下,事件A发生的概率。例如,在已知邮件中包含“免费”这个词的情况下,这封邮件是垃圾邮件的概率。
  • P(B∣A)P(B|A)P(BA):似然度(Likelihood)

    • 垃圾邮件的情况下,它囊括“免费”这个词的概率。就是表示在事件A发生的情况下,事件B发生的概率。例如,在已知邮件
  • P(A)P(A)P(A):先验概率(Prior Probability)

    • 表示事件A独立发生的概率,也就是在没有任何新信息的情况下,大家对事件A发生可能性的初始估计。例如,所有邮件中垃圾邮件的比例。
  • P(B)P(B)P(B):证据(Evidence)或归一化常数(Normalizing Constant)

    • 一个常数。就是表示事件B独立发生的概率。它的作用是确保后验概率的总和为1。在实际计算中,当比较不同A的概率时,P(B)通常可以被忽略,因为它对所有A都

通过通过这个公式,我们能够看到,贝叶斯原理提供了一种从“先验知识”(P(A)P(A)P(A))和“新证据”(P(B∣A)P(B|A)P(BA))中学习,并得出“更新后的知识”(P(A∣B)P(A|B)P(AB))的强大机制。

朴素贝叶斯:简单而强大的分类器

它做了一个非常大胆且简化的假设:就是“朴素贝叶斯”(Naive Bayes)中的“朴素”一词,是其最显著的特点,也是其优势和局限性的来源。这个“朴素”指的所有特征之间是相互独立的。这意味着,模型认为数据中的每个属性(比如一封邮件中的每个单词)对最终分类结果(比如是否是垃圾邮件)的影响是独立的,彼此之间没有关联。

为什么说它“朴素”?

在文本分类领域。就是在现实世界中,特征之间往往是相互关联的。例如,在判断一封邮件是否是垃圾邮件时,“免费”和“赢得”这两个词可能经常同时出现,并且它们都强烈暗示着垃圾邮件。然而,朴素贝叶斯会忽略此种关联性,它会假设“免费”的出现与“赢得”的出现是完全独立的事件。尽管这个假设在很多情况下并不成立,但令人惊讶的是,朴素贝叶斯在实际应用中表现得异常出色,尤其

工作原理举例:垃圾邮件分类

让大家以垃圾邮件分类为例来理解朴素贝叶斯的工作原理:

  1. 训练阶段:

  2. 预测阶段:

适用场景:

朴素贝叶斯模型因其简单、高效和易于建立而广受欢迎,特定适用于以下场景:

尽管其“朴素”的假设可能与现实不符,但它在处理高维素材(如文本数据)时表现出惊人的鲁棒性,并且计算成本非常低,非常适合大规模数据集。

高斯贝叶斯:连续数据的利器

与朴素贝叶斯主要处理离散特征(如文本中的单词)不同,高斯贝叶斯(Gaussian Bayes)是贝叶斯途径的一个变体,它专门用于处理连续型数据。它的核心假设是:素材在每个类别中都服从高斯分布,也就是我们常说的正态分布

什么是高斯分布?

一个钟形曲线,中间高,两边低。很多自然现象,如人的身高、体重、考试成绩、测量误差等,都近似服从高斯分布。高斯分布由两个参数决定:均值(决定曲线的中心位置)和标准差(决定曲线的宽度)。就是高斯分布(或正态分布)是一种非常常见的概率分布,它的图形

工作原理举例:血压判断

通过否正常,我们能够应用高斯贝叶斯模型:就是假设我们想判断一个人的血压

  1. 训练阶段:

    • 大家收集大量已知血压正常和血压偏高人群的血压数据。
    • 对于“血压正常”该类别,我们计算所有正常血压值的均值和标准差,从而得到一个代表正常血压人群血压分布的高斯曲线。
    • 同样,对于“血压偏高”这个类别,我们也计算其血压值的均值和标准差,得到另一个代表高血压人群血压分布的高斯曲线。
  2. 预测阶段:

    • 当一个新的病人的血压值到来时,高斯贝叶斯会利用这两个高斯曲线来计算:
      • 在“血压正常”的假设下,出现这个血压值的概率是多少?
      • 在“血压偏高”的假设下,出现这个血压值的概率是多少?
    • 结合先验概率(例如,人群中血压正常和血压偏高的比例),模型会根据贝叶斯公式,计算出这个病人属于“血压正常”或“血压偏高”的最终概率,然后选择概率最高的那个类别作为预测结果。

适用场景:

高斯贝叶斯特定适用于以下包含连续数值特征的分类疑问:

  • 医学诊断:根据生理指标(如血压、血糖、体温)判断疾病。
  • 金融风控:根据用户的交易金额、信用分数等连续数据判断欺诈行为。
  • 图像识别:图像的像素值通常是连续的,可以用于某些图像分类任务。

需要注意的是,高斯贝叶斯的性能在很大程度上依赖于资料是否真的近似服从高斯分布。如果数据分布与高斯分布差异较大,可能需要对数据进行转换,或者考虑其他更适合的分类算法。

总结:贝叶斯办法的魅力

通过对贝叶斯原理、朴素贝叶斯和高斯贝叶斯的介绍,我们允许看到贝叶斯方法在处理分类问题上的独特优势。它们都基于强大的概率理论,但又各自适用于不同的数据类型和场景:

特征朴素贝叶斯(Naive Bayes)高斯贝叶斯(Gaussian Bayes)
核心假设特征之间相互独立(“朴素”假设)特征材料服从高斯(正态)分布
适用数据离散型数据(如文本中的词频、类别特征)连续型数据(如身高、体重、温度、血压等数值特征)
典型应用文本分类(垃圾邮件检测、情感分析)、推荐系统医学诊断、金融风控、某些图像识别任务
优点容易、高效、易于实现、对高维数据鲁棒性好适用于连续数据、计算效率高
局限性独立性假设在现实中往往不成立依赖于数据服从高斯分布的假设,对异常值敏感

这两种贝叶斯方法的共同优点是它们都非常简单高效,尤其适合在数据量大且特征间关系较弱的场景中发挥作用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/922621.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

设计模式-结构性设计模式(针对类与对象的组织结构) - 指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

自学网站建设多久深圳网站建设推广方案

文章目录 CentOS7配置静态IP一、前言1.场景2.环境 二、正文1)确定网络接口名称2)配置固定IP和DNS3)重启网络服务4)验证配置 CentOS7配置静态IP 一、前言 1.场景 在 CentOS7上设置静态 IP 和 DNS。 2.环境 CentOS Linux 版本&…

凯利公式在期货交易中的应用

首先,我们需要理解凯利公式的目的:在重复的博弈中,找到一个最优的投注比例,以使你的长期资产增长率最大化,并避免破产风险。 一、 标准的凯利公式 最基础的凯利公式(用于两种结果,赢或输)如下: • f* = (应…

在确定性之外:关于AGI与ASI愿景的一些补充思考 (附阿里CEO云栖大会演讲全文) - 指南

在确定性之外:关于AGI与ASI愿景的一些补充思考 (附阿里CEO云栖大会演讲全文) - 指南2025-09-30 08:26 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; ov…

AT_agc054_c [AGC054C] Roughly Sorted

首先肯定考虑如何倒着回去。 发现从 \(1\) 到 \(n\) 操作,那么每个元素相当于如果不满足前面的条件,那么其就会被移动到 \(i + k\) 这个位置(已经满足条件的由于要最小化操作次数不能移动)。 那么倒着看,就相当于…

Ubuntu 24和25配置apt国内源

1.打开配置文件 sudo vim /etc/apt/sources.list.d/ubuntu.sources2.修改配置文件 # Ubuntu 24.04 (Noble) 官方源 Types: deb URIs: https://mirrors.aliyun.com/ubuntu/ Suites: noble noble-updates noble-backport…

誉重网站建设公司吃什么补肾最快最好

背景 ubuntu 18.04服务器磁盘突然100% 一查/var/log/journal目录占了14G 清理 要清理 journal 日志,可以使用以下步骤: 运行以下命令来查看 journal 日志的使用情况: journalctl --disk-usage这将显示 journal 日志的当前使用情况&#x…

特产网站开发的好处网站镜像 动态

来源:工业机器人之家北京理工大学 黄强教授团队北京理工大学借鉴人类长期进化所具备自然、快速、协调运动机理和灵巧结构特征,创新地研究了仿人机器人的仿生运动规划、控制与系统集成等关键技术,取得了新突破。提出了仿人机器人运动规划新方法…

dede网站经常被挂马 怎么办wordpress环境配置文件

ffmpeg使用xfade的转场特效 1. 介绍2. ffmpeg里面的xfade3. 使用 1. 介绍 参考文档 ffmpeg是一个音视频编辑工具,具体的。。。。我才搞接触,所以不懂。 xfade是一种视频转场滤镜,用于在两个视频片段之间创建平滑的过渡效果。xfade的转场效果…

完整教程:医疗编程AI技能树与培训技能树报告(国内外一流大学医疗AI相关专业分析2025版,上)

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

详细介绍:pxcharts多维表格编辑器Ultra版:支持二开 + 本地化部署的多维表格解决方案

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

实用指南:AWS实战:轻松创建弹性IP,实现固定公网IP地址

实用指南:AWS实战:轻松创建弹性IP,实现固定公网IP地址pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas…

做网站只有域名全球访问量最大的10个网站

场景:后台返回给页面的时间统一差8小时。 分析:差八小时,应该是时区问题。具体的是哪一层出的问题呢,mybatis?mysql?系统时间? 解析: 1.查询mysql时区(正常) 输入show variables like "%time_zone%";,显示当前时区 全局参数system_time_zone 系统时区,在My…

服务器租用网站重庆建设工程信息网官网入渝备案

SharePoint站点层次结构: 1.Web Application: 一般创建后对应一个IIS Web Site, 默认创建后是打不开的,因为网站没有任何内容。 2.Site Collection: 一个Web Application 下通常可以包含多个SiteCollection,创建一个SiteCollection后默认会…

完整教程:自然语言处理项目之情感分析(下)

完整教程:自然语言处理项目之情感分析(下)pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", &qu…

淘宝网站网页设计说明怎么找到合适的网站建设商

2024年生物学与智能计算国际会议 (ICBIC 2024) 2024 International Conference on Biology and Intelligent Computing 【会议简介】 2024年生物学与智能计算国际会议即将在上海召开。本次会议旨在汇聚生物学与智能计算领域的专家学者,共同探讨两者交叉融合的前沿…

佛山市手机网站建设公司百度提问登陆入口

来源:航空简报2020年3月4日,Brahima Coulibaly和Karim Foda在美国布鲁金斯学会官网刊文,分析了全球制造业的未来,提出了几个鲜明的观点:1.“比较优势”将发生转移,中等收入国家尤其是许多亚洲新兴经济体&am…

永泰建设工程网站黄骅港吧

1.进程退出场景 进程退出场景只有三种: 代码运行完毕,结果正确代码运行完毕,结果错误代码在运行期间异常中断,退出进程 比如:对于错误的进程,可以通过不同的返回值来确定,什么是错误码呢&#x…