大数据分析基础及应用案例:第五周学习报告——逻辑回归、决策树

news/2025/10/27 15:47:28/文章来源:https://www.cnblogs.com/ooot/p/19144299

这周一下子学了两个超实用的模型 —— 逻辑回归和决策树,它们俩都是做 “分类任务” 的高手!比如判断 “用户会不会下单”“邮件是不是垃圾邮件”,用这两个模型就能搞定。跟上周的线性回归比,分类模型更贴近生活里的选择场景,学起来特别有代入感,这就跟大家分享我的学习收获~
一、先搞懂:逻辑回归
一开始听 “逻辑回归”,我还以为跟上周的线性回归差不多,后来才发现:线性回归是 “预测具体数值”(比如预测销量多少),逻辑回归是 “判断属于哪一类”(比如判断用户会不会买),但它俩底层逻辑有相通的地方,学起来没那么难。

  1. 逻辑回归
    比如我们想判断 “一条短信是不是诈骗短信”,可以找几个影响因素:“有没有陌生链接”“是不是境外号码”“含不含‘转账’‘中奖’关键词”。逻辑回归会把这些因素整合起来,算出这条短信是 “诈骗” 的概率 —— 概率大于 50%,就归为 “诈骗类”;小于 50%,就归为 “正常类”,就这么简单!
    它的核心是一个叫 “sigmoid 函数” 的东西,能把线性回归算出来的 “任意数值”,压缩到 0~1 之间,这个结果就是 “属于某一类的概率”。比如算出来 0.8,就说明有 80% 概率是诈骗短信,直接分类就好。
  2. 实操里要注意的 “小细节”
    类别要明确:逻辑回归最适合 “二分类”(比如 “是 / 否”“好 / 坏”),如果是 “多分类”(比如 “优 / 良 / 差”),得用特殊处理方法,这点跟线性回归不一样。
    别让 “异常值” 捣乱:比如分析 “用户是否下单” 时,有个用户 “浏览时长” 填了 1000 分钟(明显是误填),如果不删掉,会让模型判断出错,所以数据清洗时一定要检查异常值。
    看 “准确率” 够不够:模型跑完后,要算 “准确率”—— 比如 100 条短信,模型对了 85 条,准确率就是 85%,越高说明模型越靠谱。
    二、再学透:决策树
    如果说逻辑回归是 “靠概率判断”,那决策树就是 “靠规则判断”,特别像我们平时做选择的过程!比如周末要不要出门:“先看天气 —— 下雨吗?下雨就不出;没下雨再看有没有约会 —— 有约会就出,没约会就宅家”,决策树就是把这种 “层层判断” 写成了可视化的 “树状图”,一眼就能看懂。
  3. 决策树的 “树结构” 超直观
    拿 “判断西瓜甜不甜” 举个例子,决策树会这么层层拆分:
    第一层(根节点):先看 “瓜皮颜色”—— 青绿色还是深绿色?
    第二层(中间节点):如果是青绿色,再看 “瓜纹清晰度”—— 清晰还是模糊?
    第三层(叶子节点):如果瓜纹清晰,就判断 “甜”;如果模糊,就判断 “不甜”。
    每一层判断的 “依据”(比如瓜皮颜色、瓜纹),模型会自动从数据里找 —— 哪个因素能最快把 “甜瓜” 和 “不甜瓜” 分开,就先用来当第一层判断,特别智能。
  4. 避坑指南:别让树 “长太疯”
    决策树有个小毛病:如果不管它,会一直拆分到 “每个样本都单独一类”,这就像 “把每个细节都当重点”,反而会判断不准(比如把 “瓜上有个小斑点” 也当判断依据,其实根本不影响甜度)。这时候就要 “剪枝”:
    提前停止:比如规定 “树最多长 3 层”,到层数就不再拆分;
    剪去细枝:把那些 “对分类帮助很小” 的分支删掉,让树更简洁,判断更准。
    二、实践案例:用两个模型 “判断用户会不会下单”
    这周的作业是分析电商数据,预测 “用户浏览商品后会不会下单”,正好用逻辑回归和决策树做对比,结果特别有意思!
  5. 数据准备:挑对 “影响因素”
    原始数据有 “用户浏览时长”“加购次数”“有没有领优惠券”“是不是新用户” 这几个字段,共 500 条用户数据。第一步先筛选有用的因素:
    去掉 “用户 ID”(就是个编号,没用);
    把 “是不是新用户” 转成数字(1 = 新用户,0 = 老用户),方便模型计算。
  6. 两个模型 “PK” 一下
    逻辑回归:靠概率稳赢把 “浏览时长”“加购次数” 等因素放进去,模型算出每个用户 “下单概率”。最后准确率是 82%——100 个用户,82 个判断对了。还能看到 “加购次数” 影响最大:加购 1 次以上的用户,下单概率比没加购的高 50%,这个结论特别实用,以后商家可以重点推 “加购” 活动。
    决策树:靠规则直观赢决策树跑出来后,直接生成了一个树状图,第一层判断 “有没有领优惠券”—— 领了优惠券的用户,再看 “加购次数”;没领的,直接判断 “大概率不下单”。准确率是 79%,比逻辑回归略低,但胜在 “规则清晰”,老板看树状图就能懂 “怎么提升下单率”,不用看复杂公式。
  7. 这次踩的 “坑”,大家别踩
    一开始我把 “浏览时长” 的单位搞混了(有的是 “分钟”,有的是 “秒”),没统一单位就放进模型,结果逻辑回归准确率只有 60%。后来把所有时长都转成 “分钟”,准确率一下子就上去了 —— 原来数据格式不统一,对模型影响这么大!
    三、总结:两个模型各有千秋,按需选就好
    这周学下来,我觉得逻辑回归和决策树就像 “分类界的两个工具”:
    想 “精准算概率”“看因素影响大小”(比如算用户下单概率、分析哪个因素最关键),选逻辑回归;
    想 “快速出规则”“让非技术的人也看懂”(比如给老板看怎么判断垃圾邮件、怎么提升转化率),选决策树。
    而且这两个模型都是数据分析的 “基础款”,后面学更复杂的模型(比如随机森林),都要用到它们的思路。第五周算是跨进了 “分类任务” 的大门,感觉离 “用数据解决实际问题” 又近了一步,下周继续加油!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/947790.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

题解:P4434 [COCI 2017/2018 #2] ​​Usmjeri

目前暂无修正。前置知识:扩展域并查集、树形 DP、离线二维数点(不必要?)。 水个题解,写一个常数大、码量大、难写、简单问题复杂化的思路。时间复杂度 \(O(n\log n+(n+m)\alpha(n))\)。 假定树是以 \(1\) 为根的有…

《CSS盒子模型》笔记总结 - 教程

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025修护洗/二硫化硒去屑/香氛/控油蓬松/洗发水品牌推荐:MASIL玛丝兰引领功效细分赛道,哪个牌子好?看实测口碑榜

在头皮护理需求日益精细化的 2025 年,洗发水已从基础清洁升级为 “精准功效 + 温和养护” 的综合方案。以下结合成分科技与用户口碑,推荐兼具专业性与适配性的洗发水品牌,看看哪个牌子好。 西安悦己容生物科技有限责…

2025 年 10 月仓库管理系统软件,电商仓库管理系统,云仓库管理系统公司最新推荐,技术实力与市场口碑深度解析!

引言 在数字化转型浪潮下,仓库管理系统已成为企业供应链的核心基建,市场需求持续攀升,相关市场年复合增长率预计保持在 22% 以上。然而,多平台订单协同难、场景适配性不足、数据孤岛等问题仍困扰着众多企业。为助力…

小程序-跳转到公众号

从小程序跳转到公众号的方法 最简单的方式,可能会出现偶现的情况<official-account></official-account>建议用下面wx.openOfficialAccountProfile({username: gh_123123, // 此处填写公众号的原始 IDsuc…

如何解决一堆向量的问题?10、Self-attention - -一叶知秋

接CNN 如何解决一堆向量的问题? 输入 一个单词一个编码,一句话是一堆向量声音信号是一堆向量一个图也是一堆向量输出 输入多少,输出多少(Sequence labeling)输入很多,输出一个输入很多,但不知道输出多少,让机器…

Personalities Test – Free 16 Personalities (MBTI) Personality Test Online

Personalities Test is a free online platform designed to help you discover your true personality type based on the MBTI (Myers-Briggs Type Indicator) framework. By answering a series of carefully desig…

win11系统优化(右键鼠标选项功能太多)

1. 右键菜单(Win10经典菜单)功能:恢复Win10的经典菜单 。 恢复方法:按住 win + r 输入 cmd,打开命令提示符,想变哪个就输入哪个的命令!恢复Win10经典菜单命令 1 reg add "HKEY_CURRENT_USER\SOFTWARE\CLAS…

2025 年 10 月跨境新零售系统,微商新零售系统,商城新零售系统公司最新推荐,技术实力与市场口碑深度解析

引言 2025 年零售数字化转型进入深水区,跨境、微商、商城三大细分领域的系统需求激增,据零售联合会(NRF)报告显示,超 60% 的零售销售与数字技术深度绑定,而跨境业务因合规、物流等痛点,系统适配率仅 35%。为精准…

模拟赛 R19

R19 - A 过去 题目描述 你有一个长度为 \(n\) 的排列 \(p_1,p_2\sim p_n\),初始时 \(p_i=i\)。 接下来你进行了 \(m\) 次操作,第 \(i\) 次操作翻转了前缀 \(p_1,p_2\sim p_{a_i}\),即如果记 \(b_j=p_j\),那么新的 …

win10激活脚本

新建txt文件 slmgr /ipk W269N-WFGWX-YVC9B-4J6C9-T83GX slmgr /skms kms.loli.best slmgr /ato 将文件后缀改为bat后右键文件管理员执行本帖子也是纯手工制作,转载请标明出处-----------burukku(づ。◕ᴗᴗ◕。)づ

MCS-51中断系统

MCS-51中断系统1、微型计算机和外部设备之间的传送方式 同步传送,异步传送,中断传送,DMA(直接内存储器存储) 2、中断的定义 定义:计算机暂时停止原程序的执行转而为外部设备服务(执行中断服务程序),并在服务完…

2025 年智慧新零售系统,新零售系统服务商,新零售系统 ERP 公司最新推荐,聚焦资质、案例、售后的实力品牌深度解析!

引言 随着 AI 数字化零售的蓬勃发展,全渠道协同与精细化运营已成为零售企业转型的核心诉求。为精准筛选兼具技术实力与服务能力的系统服务商,本次测评联合行业权威机构,基于三大核心维度展开全面评估:在资质维度,…

AOP面向切面编程思想

AOP切面编程思想 ​ AOP(Aspect-Oriented Programming)是一种编程范式(面向切面编程),通过横向抽取机制将分散在各个模块中的公共关注点(如日志、事务、权限)分离出来,形成独立的切面(Aspect),从而提高代码的…

阿里巴巴 AI Coding 分享会 Qoder Together 杭州站来啦!

与 Qoder 技术团队面对面,聊聊产品背后的设计理念与未来规划 听资深用户分享使用 Qoder 的实战经验与技巧 现场 AI Coding 黑客松,一起体验智能编程的新范式,边写边学边碰撞点击此处或下方链接立即报名: https://w…

2025 年分销供应链系统、供应链系统软件、供应链系统 SaaS 公司最新推荐,技术实力与市场口碑深度解析!

引言 在数字化转型加速推进的当下,供应链管理软件已成为企业优化运营效率的核心工具,据行业调研显示,2024 年超 67% 的企业因供应链管理不善导致至少 15% 的利润损失。为精准筛选优质供应链系统服务商,本次测评联合…

洞悉过往,一目了然:浅述视频融合平台EasyCVR如何实现海量视频录像的智能检索与高效回看

洞悉过往,一目了然:浅述视频融合平台EasyCVR如何实现海量视频录像的智能检索与高效回看引言:从“看实时”到“查过往”的核心价值 在视频监控领域,实时直播让我们掌控当下,而录像回看功能则让我们能够洞悉过往,是…

C#性能暴增300%!这10个黑科技代码你绝对没用过

C#性能暴增300%!这10个黑科技代码你绝对没用过Posted on 2025-10-27 15:35 lzhdim 阅读(0) 评论(0) 收藏 举报在C# 开发的广袤天地里,你是否常常渴望能有一种神奇的力量,让代码的性能实现飞跃式提升?今天,就…

如何找到心仪的 ChatBI 智能体?Aloudata Agent 推荐给你

Aloudata Agent 凭借其技术架构的创新性、分析能力的闭环性以及场景适配的深度,成为企业落地ChatBI、实现数据驱动决策的理想选择。在数智化转型浪潮中,ChatBI 智能体凭借自然语言交互能力,成为企业打破数据分析壁垒…

10月第二篇

《程序员修炼之道:从小工到专家》阅读笔记 第二阶段:“破窗理论” 与代码质量守护 “破窗理论” 应该是书里讲代码质量最戳我的点了,它不是干巴巴的理论,而是说到了我们小组做项目时常见的 “摆烂” 问题。书里打了…