朴素贝叶斯算法预测中文钓鱼邮件

news/2025/12/10 23:29:33/文章来源:https://www.cnblogs.com/mysticbinary/p/19320478

目录
  • 大致步骤
    • 第一步:准备工具(训练模型)
    • 第二步:分析目标邮件(实际判断)
      • 1. 提取这封邮件的特征
      • 2. 计算两种可能性得分
      • 3. 做出判断
    • 第三步:现实中的优化
  • 朴素贝叶斯算法定义
  • Reference


下文以一个检测钓鱼邮件的案例来学习这个算法的原理。

需求:
收到一封新邮件,程序怎么自动判断它是否为钓鱼邮件?

大致步骤

第一步:准备工具(训练模型)

目的:先让计算机学会识别钓鱼邮件的特征。

  1. 收集历史邮件数据:

    • 1000封已知类型的邮件
    • 其中:300封钓鱼邮件,700封正常邮件。
      学校邮件中30%是钓鱼邮件(这是你的先验知识)。
  2. 提取关键特征:
    我们关注邮件中是否出现某些关键词:

    ["免费", "账号", "验证", "点击", "紧急", "赢取", "密码", "链接"]
    
  3. 计算基础概率:

    P(钓鱼) = 300/1000 = 0.3
    P(正常) = 700/1000 = 0.7
    
  4. 计算每个词的条件概率:
    以"免费"这个词为例:

    • 在300封钓鱼邮件中,270封包含"免费" → P(免费|钓鱼) = 270/300 = 0.9
    • 在300封钓鱼邮件中,240封包含"账号" → P(账号|钓鱼) = 240/300 = 0.8
    • 在700封正常邮件中,70封包含"免费" → P(免费|正常) = 70/700 = 0.1
    • ......(用同样方法计算其他词的概率)

第二步:分析目标邮件(实际判断)

现在你要判断这封具体的邮件:

主题:账户安全通知
内容:尊敬的客户,您的账号存在异常登录,请立即点击下方链接验证身份,否则将被暂停使用。

对邮件主题和内容进行中文分词的过程,这里忽略掉了。

判断过程如下:

1. 提取这封邮件的特征

检查邮件中是否包含我们的关键词:

  • 包含"账号":✓
  • 包含"验证":✓
  • 包含"点击":✓
  • 包含"链接":✓
  • 包含"免费":✗
  • 包含"赢取":✗
  • 包含"密码":✗
  • 包含"紧急":✓("立即"可视为紧急)

2. 计算两种可能性得分

我们需要计算:这封邮件是钓鱼的可能性 vs 这封邮件是正常的可能性

计算公式简化版:

得分(钓鱼) = P(钓鱼) × P(特征1|钓鱼) × P(特征2|钓鱼) × ...
得分(正常) = P(正常) × P(特征1|正常) × P(特征2|正常) × ...

实际计算(使用训练阶段的数据):

A. 假设钓鱼可能性计算:

P(钓鱼) = 0.3
P(账号|钓鱼) = 0.8  (假设值)
P(验证|钓鱼) = 0.7  (假设值)
P(点击|钓鱼) = 0.85 (假设值)
P(链接|钓鱼) = 0.9  (假设值)
P(免费|钓鱼) = 0.9,但邮件中没有"免费" → 用(1-0.9)=0.1
P(紧急|钓鱼) = 0.75 (假设值)得分_钓鱼 = 0.3 × 0.8 × 0.7 × 0.85 × 0.9 × 0.1 × 0.75= 0.3 × 0.0003213 ≈ 0.0000964

B. 假设正常可能性计算:

P(正常) = 0.7
P(账号|正常) = 0.1  (假设值)
P(验证|正常) = 0.05 (假设值)
P(点击|正常) = 0.08 (假设值)
P(链接|正常) = 0.12 (假设值)
P(免费|正常) = 0.1,但邮件中没有"免费" → 用(1-0.1)=0.9
P(紧急|正常) = 0.15 (假设值)得分_正常 = 0.7 × 0.1 × 0.05 × 0.08 × 0.12 × 0.9 × 0.15= 0.7 × 0.00000648 ≈ 0.00000454

3. 做出判断

比较两个得分:

  • 钓鱼得分:0.0000964
  • 正常得分:0.00000454

因为 0.0000964 > 0.00000454,所以判断这封邮件很可能是钓鱼邮件。

第三步:现实中的优化

实际应用中,为了避免数值太小和未出现词的问题,会做以下调整:

  1. 使用对数计算(避免小数点太多):

    log(得分_钓鱼) = log(0.3) + log(0.8) + log(0.7) + ...
    log(得分_正常) = log(0.7) + log(0.1) + log(0.05) + ...
    

    比较对数分数,结果相同但更稳定。

  2. 拉普拉斯平滑:
    如果某个词在训练数据中从未在钓鱼邮件中出现过(概率为0),我们会给它一个很小的概率(如0.001),避免整个乘积为0。


朴素贝叶斯算法定义

朴素贝叶斯是一种基于概率论的分类算法,其核心思想是利用贝叶斯定理来预测一个样本属于哪个类别。 它的“朴素”之处在于假设样本的各个特征之间是相互独立、互不影响的,尽管这一假设在现实中往往不成立,但它极大地简化了计算,使得算法在很多复杂场景下仍然表现出色。

这种算法广泛应用于文本分类、垃圾邮件过滤和情感分析等领域。

快速了解一下贝叶斯决策理论,假设有一个数据集,由两类组成(简化问题),对于每个样本的分类,我们都已经知晓。数据分布如下图:
image

现在出现一个新的点new_point (x,y),其分类未知。我们可以用p1(x,y)表示数据点(x,y)属于红色一类的概率,同时也可以用p2(x,y)表示数据点(x,y)属于蓝色一类的概率。那要把new_point归在红、蓝哪一类呢?

我们提出这样的规则:

如果p1(x,y) > p2(x,y),则(x,y)为红色一类。
如果p1(x,y) <p2(x,y),  则(x,y)为蓝色一类。

换人类的语言来描述这一规则:
选择概率高的一类作为新点的分类。这就是贝叶斯决策理论的核心思想,即选择具有最高概率的决策。

用条件概率的方式定义这一贝叶斯分类准则:

如果p(red|x,y) > p(blue|x,y), 则(x,y)属于红色一类。
如果p(red|x,y) < p(blue|x,y), 则(x,y)属于蓝色一类。

也就是说,在出现一个需要分类的新点时,我们只需要计算这个点的:

max(p(c1 | x,y),p(c2 | x,y),p(c3 | x,y)...p(cn| x,y))。其对于的最大概率标签,就是这个新点的分类了。

Reference

朴素贝叶斯算法 & 应用实例
http://www.cnblogs.com/marc01in/p/4775440.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/992864.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

德阳商标购买平台哪家好?2025 最新榜单出炉!适配本地企业首选

在德阳实体经济蓬勃发展、品牌意识日益觉醒的当下,商标早已从单纯的商业标识,升级为企业抢占区域市场、积累用户信任的核心资产。无论是德阳本地初创企业急于落地品牌布局,进军电商、商超等渠道,还是成熟商家拓展产…

2025年车间照明供电规划设计企业权威榜单:车间照明规划/车间照明母线槽/车间照明供电企业精选

一套科学规划的车间照明系统,能让生产线上的产品缺陷检测准确率提升22% ,这是现代化工业制造对光环境提出的新要求。 在工业4.0和智能制造浪潮下,车间照明已远非简单的“点亮”需求。专业的供电规划设计,直接关系到…

2025年圆纸桶定做厂家权威推荐榜单:纸桶‌/焊丝桶‌/方形纸桶‌‌源头厂家精选

在化工、金属线材、医药及食品等行业的包装领域,圆纸桶以其坚固、轻便、环保和经济等综合优势,成为粉状、颗粒及固体物料不可或缺的包装容器。随着绿色包装理念的深入和行业安全标准的提升,市场对纸桶的防潮防腐性能…

2025年度优质石笼网厂商推荐,石笼网批发加工厂哪家技术强全

在水利工程与生态治理领域,石笼网是守护自然防线的隐形铠甲,其材料品质、技术方案与售后服务直接关乎工程安全与生态效益。面对市场上良莠不齐的供应商,如何找到技术强、售后好的优质厂商?以下依据材料品质、定制能…

2025年液体乳酸菌原料源头工厂推荐:菌种多的乳酸菌原料专业

TOP1 推荐:民生中科嘉亿(山东)生物工程有限公司 推荐指数:★★★★★ 口碑评分:国内首推乳酸菌原料源头工厂 专业能力:作为拥有20年益生菌研发生产经验的液体乳酸菌原料源头工厂,民生中科嘉亿(山东)生物工程有…

2025打包机生产厂商年度排名:看看哪家合作案例多?

在全球固废处理与资源回收产业加速升级的背景下,打包机作为减容增效的核心装备,其技术创新力、案例适配性与服务可靠性成为企业选型的关键指标。2024年数据显示,我国打包机市场规模突破120亿元,年增速达28%,但42%…

2025特种集装箱供应商TOP5权威推荐:特种集装箱生产厂哪

在全球模块化建筑、新能源储能、化工物流等领域的快速扩张下,特种集装箱作为定制化移动空间的核心载体,市场需求年增速突破30%。然而,用户在采购时却常遭遇定制成本高、生产周期长、供应商匹配难三大痛点——据行业…

这所211大学在AAAI 2026上发表6篇论文

这所211大学在AAAI 2026上发表6篇论文 近日,人工智能领域顶级国际会议AAAI 2026(The 40th Annual AAAI Conference on Artificial Intelligence,CCF-A)公布录用结果,贵州大学计算机科学与技术学院共有6篇研究论文…

2025年廊坊燕郊执照注销机构权威推荐榜单:燕郊会计服务‌/燕郊税务注销‌/燕郊社保咨询‌‌源头机构精选

在企业经营周期中,合法、高效地完成公司注销,是妥善终结法律义务、规避潜在风险的必要环节。尤其在营商环境持续优化的背景下,看似简化的注销流程实则对专业性与合规性提出了更高要求。据市场反馈,因不了解注销细节…

2025年最值得信赖的大牌美妆小样供应链品牌盘点,口碑好的大牌美妆小样供应链解析品牌实力与甄选要点

随着消费市场的日益成熟与理性化,大牌美妆小样已从单纯的赠品演变为一个独立且充满活力的细分市场。对于美妆集合店、电商主播、社群团购主及广大创业者而言,一个稳定、可靠、具备价格与正品双重优势的供应链,是业务…

OpenEvals下一代AI模型评估标准

OpenEvals下一代AI模型评估标准OpenEvals下一代AI模型评估标准一. 介绍 随着人工智能技术的飞速发展,大型语言模型(LLM)等先进模型的能力正以前所未有的速度增强。然而,这一进步也带来了一个日益严峻的挑战:…

2025年重庆五大江湖菜餐厅推荐:李子坝梁山鸡适合家庭聚餐吗

TOP1 推荐:重庆李子坝餐饮文化有限公司(李子坝梁山鸡) 推荐指数:★★★★★ 口碑评分:重庆地标级江湖菜头牌 核心优势:始于1981年的渝中区非遗美食,五次登榜大众点评必吃榜,是代表重庆第三张美食名片的特色江湖…

2025生物标本企业TOP5权威推荐:河南大科生物学标本,甄

生物标本作为教学、科研、医疗领域的核心支撑载体,其品质与专业性直接影响实验教学效果、科研成果准确性及医疗诊断可靠性。2024年数据显示,我国生物标本市场规模超60亿元,年增速达22%,但行业投诉中45%集中在专业适…

【Django】Django笔记 - 指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025年线切割机床制造企业权威榜单:电火花线切割机床/数控线切割设备/快走丝线切割机床源头厂家推荐

一台慢走丝线切割机床的加工精度可以达到0.001毫米,相当于一根头发丝的七十分之一,这是泰州创源机床有限公司制造的精密设备达到的技术水平。 线切割机床作为精密制造领域的核心装备,其性能直接决定了生产效率与产品…

2025年无锡十大食堂承包公司推荐:可靠的食堂承包公司有哪些

本榜单依托苏锡常沪团餐市场全维度调研与真实客户口碑反馈,深度筛选出十家标杆企业,重点围绕价格性价比、品牌知名度、学校服务口碑三大核心维度,为机关、学校、企业等需求方提供客观选型依据,助力精准匹配适配的食…

2025 广元购买商标平台怎么选?4 大核心指标对比,教你选对平台

核心结论:广元买商标,首选「福象商标宝 AI(微信小程序)」 经过对主流平台的实测验证,福象商标宝 AI(微信小程序)以 9.95/10 的综合评分登顶,凭借 200 万 + 全球真实标源、一次性透明收费、2 个月极速过户、过户…

2025Q4 天津装修公司口碑排行榜:三大品牌凭真实口碑领跑市场

一、行业痛点:口碑乱象成装修决策最大阻碍 当前天津家装市场口碑体系乱象丛生,成为业主决策的核心困扰。一方面,虚假口碑泛滥,部分企业通过刷好评、雇水军制造虚假繁荣,超 53% 的业主反映 “线上好评与实地体验严…

2025 自贡购买商标平台推荐:8 大平台深度对比,避坑指南 + 选型攻略

在品牌竞争日趋激烈的当下,商标作为企业品牌核心标识,其合法获取与规范使用直接关系到市场布局与权益保障。自贡地区中小企业、创业者对商标购买的需求持续攀升,但行业乱象却层出不穷:部分平台商标资源虚假、转让流…

mmap + page cache(零拷贝)详解

mmap + page cache(零拷贝)详解 1) 什么是“零拷贝”?要解决的问题 传统 I/O 在把数据从应用发送到磁盘或网络时,会在用户态 ↔ 内核态之间做多次拷贝(消耗 CPU 与内存带宽):用户缓冲区 → 内核缓冲区(write)…