02-机器学习-核心概念

以下是机器学习核心概念的详细梳理。


1. 机器学习三大范式

类型定义典型应用
监督学习使用带标签的数据训练模型,预测未知数据的标签。分类(邮件垃圾过滤)、回归(房价预测)
无监督学习无标签的数据中发现隐藏模式或结构。聚类(客户分群)、降维(数据可视化)
强化学习通过试错与奖励机制训练智能体,使其在环境中做出最优决策。游戏AI(AlphaGo)、自动驾驶

2. 核心算法分类

监督学习算法
  • 分类

    • 逻辑回归:二分类问题,输出概率值。
    • 决策树:基于特征阈值递归分割数据。
    • 支持向量机(SVM):寻找最大化分类间隔的超平面。
    • 随机森林:多棵决策树的集成,降低过拟合风险。
  • 回归

    • 线性回归:拟合数据的最佳直线/超平面。
    • 岭回归/Lasso回归:加入正则化项防止过拟合。
无监督学习算法
  • 聚类
    • K-Means:将数据划分为K个簇,最小化簇内距离。
    • 层次聚类:通过树状图展示数据分层聚合过程。
  • 降维
    • 主成分分析(PCA):通过正交变换提取主要特征。
    • t-SNE:非线性降维,适用于高维数据可视化。
其他重要方法
  • 半监督学习:结合少量标签数据和大量无标签数据训练模型。
  • 集成学习:通过Bagging(随机森林)、Boosting(XGBoost)提升模型性能。

3. 模型评估指标

任务类型评估指标解释
分类准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1分数、ROC-AUC- 精确率:预测为正的样本中实际为正的比例。
- 召回率:实际为正的样本中被正确预测的比例。
回归均方误差(MSE)、平均绝对误差(MAE)、R²分数- R²分数:模型对数据变动的解释能力(0~1,越大越好)。
聚类轮廓系数(Silhouette Score)、Calinski-Harabasz指数- 轮廓系数:衡量簇内紧密度和簇间分离度(-1~1,越大越好)。

4. 关键问题与解决方法

过拟合(Overfitting)
  • 现象:模型在训练集表现极佳,但在测试集表现差。
  • 解决
    • 增加训练数据量。
    • 正则化(L1/L2正则化)。
    • 交叉验证(如K-Fold)。
    • 减少模型复杂度(如剪枝决策树)。
欠拟合(Underfitting)
  • 现象:模型在训练集和测试集均表现不佳。
  • 解决
    • 增加模型复杂度(如使用更深的神经网络)。
    • 添加更多特征或进行特征工程。
偏差-方差权衡
  • 高偏差:模型过于简单,无法捕捉数据规律(欠拟合)。
  • 高方差:模型过于复杂,对噪声敏感(过拟合)。
  • 目标:通过调整模型复杂度和正则化,找到平衡点。

5. 核心流程

  1. 数据预处理:缺失值填充、标准化/归一化、编码类别特征。
  2. 特征工程:特征选择(如卡方检验)、特征构造(如多项式特征)。
  3. 模型训练:划分训练集/验证集/测试集,选择算法并调参。
  4. 模型评估:根据任务类型选择指标,分析结果。
  5. 模型部署:将训练好的模型转化为API服务或嵌入应用。

6. 实际应用场景

  • 分类:垃圾邮件识别、图像分类(猫 vs 狗)。
  • 回归:股票价格预测、销售额趋势分析。
  • 聚类:用户分群(电商推荐)、异常检测(信用卡欺诈)。
  • 降维:高维数据可视化(如将100维数据压缩为2维)。

掌握这些核心概念后,可以通过框架(如Scikit-learn)快速实现算法,并逐步深入理论细节。下一步建议通过实战项目(如Kaggle竞赛)巩固知识! 🚀

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/67190.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis实战(黑马点评)——关于缓存(缓存更新策略、缓存穿透、缓存雪崩、缓存击穿、Redis工具)

redis实现查询缓存的业务逻辑 service层实现 Overridepublic Result queryById(Long id) {String key CACHE_SHOP_KEY id;// 现查询redis内有没有数据String shopJson (String) redisTemplate.opsForValue().get(key);if(StrUtil.isNotBlank(shopJson)){ // 如果redis的数…

算法-加油站问题

hello 大家好!今天开写一个新章节,每一天一道算法题。让我们一起来学习算法思维吧! function canCompleteCircuit(gas, cost) {// 加油站的总数const n gas.length;// 记录总剩余油量,若总剩余油量小于 0,说明无法绕环…

讯飞绘镜(ai生成视频)技术浅析(二):大模型

1.讯飞星火大模型的基础架构 2.自然语言处理(NLP)技术的具体实现 3.脚本生成的具体过程与模型公式 4.分镜生成的具体过程与模型公式 5.视频生成与编辑的技术细节 6.关键技术公式的详细推导与解释 一、讯飞星火大模型的基础架构 讯飞星火大模型是基于Transformer架构的深…

【机器学习】深入探索SVM:支持向量机的原理与应用

目录 🍔 SVM引入 1.1什么是SVM? 1.2支持向量机分类 1.3 线性可分、线性和非线性的区分 🍔 小结 学习目标 知道SVM的概念 🍔 SVM引入 1.1什么是SVM? 看一个故事,故事是这样子的: 在很久以前的情人节&#xf…

pycharm 运行远程环境问题 Error:Failed to prepare environment.

问题排查 拿到更详细的报错信息: Help > Diagnostic Tools > Debug Log Settings section: 添加下面的配置 com.intellij.execution.configurations.GeneralCommandLine 重显报错,我这里是再次运行代码打开 Help | Collect Logs and Diagnosti…

一组开源、免费、Metro风格的 WPF UI 控件库

前言 今天大姚给大家分享一个开源、免费、Metro风格的 WPF UI 控件库:MahApps.Metro。 项目介绍 MahApps.Metro 是一个开源、免费、Metro风格的 WPF UI 控件库,提供了现代化、平滑和美观的控件和样式,帮助开发人员轻松创建具有现代感的 Win…

读写和解析简单的 nc 文件

NetCDF 文件格式在气象数据工程领域占据着举足轻重的地位,其结构灵活、强兼容性等优势使其成为该领域的一个标准。无论是从事学术研究还是工程实践,掌握这种数据格式变得越发重要。其次,我注意到目前社区中气象编程大多数课程都聚焦于某个特定…

Mac m1,m2,m3芯片使用nvm安装node14报错

使用nvm安装了node 12/16/18都没有问题,到14就报错了。第一次看到这个报错有点懵,查询资料发现是Mac芯片的问题。 Issue上提供了两个方案: 1、为了在arm64的Mac上安装node 14,需要使用Rosseta,可以通过以下命令安装 …

【计算机网络】host文件

host文件的主要功能: 域名解析 本地映射:host文件的主要功能是将**域名映射到相应的 IP 地址**。当计算机需要访问一个网站或服务时,它会首先在 host文件中查找该域名对应的 IP 地址。如果在 host文件中找到了匹配的域名和 IP 地址映射&…

vue3中customRef的用法以及使用场景

1. 基本概念 customRef 是 Vue3 提供的用于创建自定义响应式引用的 API,允许显式地控制依赖追踪和触发响应。它返回一个带有 get 和 set 函数的工厂函数来自定义 ref 的行为。 1.1 基本语法 import { customRef } from vuefunction createCustomRef(value) {retu…

周末总结(2024/01/25)

工作 人际关系核心实践: 要学会随时回应别人的善意,执行时间控制在5分钟以内 坚持每天早会打招呼 遇到接不住的话题时拉低自己,抬高别人(无阴阳气息) 朋友圈点赞控制在5min以内,职场社交不要放在5min以外 职场的人际关系在面对利…

C++和Python实现SQL Server数据库导出数据到S3并导入Redshift数据仓库

用C实现高性能数据处理,Python实现操作Redshift导入数据文件。 在Visual Studio 2022中用C和ODBC API导出SQL Server数据库中张表中的所有表的数据为CSV文件格式的数据流,用逗号作为分隔符,用双引号包裹每个数据,字符串类型的数据…

基于OpenCV实现的答题卡自动判卷系统

一、图像预处理 🌄 二、查找答题卡轮廓 📏 三、透视变换 🔄 四、判卷与评分 🎯 五、主函数 六、完整代码+测试图像集 总结 🌟 在这篇博客中,我将分享如何使用Python结合OpenCV库开发一个答题卡自动判卷系统。这个系统能够自动从扫描的答题卡中提取信…

Android AOP:aspectjx

加入引用 在整个项目的 build.gradle 中,添加 classpath "com.hujiang.aspectjx:gradle-android-plugin-aspectjx:2.0.10" 可以看到测试demo的 gradle 版本是很低的。 基于 github 上的文档,可以看到原版只支持到 gradle 4.4 。后续需要使…

第84期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找…

TCP/IP 协议:互联网通信的基石

TCP/IP 协议:互联网通信的基石 引言 TCP/IP协议,全称为传输控制协议/互联网协议,是互联网上应用最为广泛的通信协议。它定义了数据如何在网络上传输,是构建现代互联网的基础。本文将深入探讨TCP/IP协议的原理、结构、应用以及其在互联网通信中的重要性。 TCP/IP 协议概述…

蛇年特别版贪吃蛇H5小游戏

该作者的原创文章目录: 生产制造执行MES系统的需求设计和实现 企业后勤管理系统的需求设计和实现 行政办公管理系统的需求设计和实现 人力资源管理HR系统的需求设计和实现 企业财务管理系统的需求设计和实现 董事会办公管理系统的需求设计和实现 公司组织架构图设计工具 库存管…

MapReduce,Yarn,Spark理解与执行流程

MapReduce的API理解 Mapper 如果是单词计数:hello:1, hello:1, world:1 public void map(Object key, // 首字符偏移量Text value, // 文件的一行内容Context context) // Mapper端的上下文,…

如何将xps文件转换为txt文件?xps转为pdf,pdf转为txt,提取pdf表格并转为txt

文章目录 xps转txt方法一方法二 pdf转txt整页转txt提取pdf表格,并转为txt 总结另外参考XPS文件转换为TXT文件XPS文件转换为PDF文件PDF文件转换为TXT文件提取PDF表格并转为TXT示例代码(部分) 本文测试代码已上传,路径如下&#xff…

Day26-【13003】短文,什么是顺序表?顺序表和数组、内存地址的关系?顺序表的插入、删除操作如何实现?操作的时间复杂度是多少?

文章目录 第二节,线性表的顺序存储及实现概览什么是顺序表和链表?顺序存储的叫顺序表顺序表和数组还有内存地址的关系?顺序表的基本操作如何实现?1、插入操作如何实现?2、删除操作如何实现?3、赋值和查找操…