机器学习--学习计划

3周机器学习速成计划

基于「28原则」,聚焦机器学习20%的核心概念,覆盖80%的常见应用场景。计划分为 理论学习 + 项目实战,每周学习后通过5个递进项目巩固知识。


📅 第1周:数据与监督学习基础

学习目标:掌握数据预处理、线性模型与分类任务的基础流程。
核心概念(20%关键内容):

  1. 数据预处理
    • 缺失值处理(均值填充、删除)
    • 特征缩放(标准化、归一化)
    • 分类变量编码(独热编码、标签编码)
  2. 监督学习基础
    • 线性回归(原理、损失函数、梯度下降)
    • 逻辑回归(分类任务、Sigmoid函数)
  3. 模型评估
    • 训练集/测试集划分
    • 准确率、均方误差(MSE)

学习资源

  • 工具库:pandas(数据处理)、scikit-learn(模型训练)
  • 理论补充:Google机器学习速成课程

🚀 第1周项目(难度递增)

  1. 房价预测(线性回归)

    • 目标:使用波士顿房价数据集,预测房屋价格。
    • 强化概念:数据清洗、特征缩放、线性回归实现。
    • 数据集sklearn.datasets.load_boston()
  2. 鸢尾花分类(逻辑回归)

    • 目标:根据花瓣/花萼尺寸分类鸢尾花品种。
    • 强化概念:分类任务、独热编码、混淆矩阵。
    • 数据集sklearn.datasets.load_iris()
  3. 糖尿病预测(特征工程)

    • 目标:处理缺失值,预测患者是否患糖尿病。
    • 强化概念:缺失值处理、特征相关性分析。
    • 数据集:Pima Indians Diabetes Dataset(Kaggle)
  4. 手写数字识别(多分类)

    • 目标:识别MNIST数据集中的手写数字(0-9)。
    • 强化概念:多分类逻辑回归、One-vs-All策略。
    • 数据集sklearn.datasets.load_digits()
  5. 新闻分类(文本特征提取)

    • 目标:将新闻文本分类为体育、科技等类别。
    • 强化概念:TF-IDF向量化、稀疏矩阵处理。
    • 数据集sklearn.datasets.fetch_20newsgroups()

📅 第2周:模型进阶与评估优化

学习目标:掌握树模型、模型调参与交叉验证,避免过拟合。
核心概念

  1. 决策树与集成学习
    • 决策树分裂准则(基尼系数、信息增益)
    • 随机森林、梯度提升树(GBDT)
  2. 模型优化
    • 超参数调优(网格搜索、随机搜索)
    • 交叉验证(K-Fold)
  3. 过拟合与正则化
    • L1/L2正则化(线性模型)
    • 树模型的剪枝策略

学习资源

  • 工具库:scikit-learn(随机森林、GridSearchCV)
  • 理论动画:StatQuest决策树视频

🚀 第2周项目(难度递增)

  1. 泰坦尼克生存预测(决策树)

    • 目标:预测乘客是否幸存,处理混合型特征(数值+分类)。
    • 强化概念:决策树可视化、特征重要性分析。
    • 数据集:Titanic Dataset(Kaggle)
  2. 信用卡欺诈检测(类别不平衡)

    • 目标:检测欺诈交易,使用过采样(SMOTE)或欠采样。
    • 强化概念:精确率/召回率权衡、ROC曲线。
    • 数据集:Credit Card Fraud Detection(Kaggle)
  3. 房价预测优化(随机森林)

    • 目标:对比线性回归与随机森林性能,优化超参数。
    • 强化概念:网格搜索(GridSearchCV)、MSE对比。
  4. 用户流失预测(梯度提升树)

    • 目标:预测用户是否会流失,使用XGBoost或LightGBM。
    • 强化概念:Boosting原理、早停法(Early Stopping)。
    • 数据集:Telco Customer Churn(Kaggle)
  5. 模型部署实战(Flask API)

    • 目标:将训练好的模型封装为API,实现实时预测。
    • 强化概念:模型序列化(Pickle)、RESTful API设计。

📅 第3周:无监督学习与神经网络入门

学习目标:理解聚类、降维与神经网络基础。
核心概念

  1. 无监督学习
    • K-Means聚类(肘部法确定K值)
    • PCA降维(主成分分析)
  2. 神经网络基础
    • 感知机、全连接网络
    • 激活函数(ReLU、Sigmoid)
  3. 深度学习工具
    • TensorFlow/Keras基础语法
    • 图像分类实战(CNN入门)

学习资源

  • 工具库:scikit-learn(K-Means)、TensorFlow
  • 交互式学习:TensorFlow Playground

🚀 第3周项目(难度递增)

  1. 客户分群(K-Means)

    • 目标:对电商用户进行分群,制定个性化营销策略。
    • 强化概念:聚类评估(轮廓系数)、特征标准化。
    • 数据集:Mall Customer Segmentation(Kaggle)
  2. 新闻主题挖掘(PCA降维)

    • 目标:对新闻文本降维后可视化,发现潜在主题。
    • 强化概念:PCA原理、二维/三维投影。
  3. 手写数字识别(全连接网络)

    • 目标:用Keras构建神经网络,替代逻辑回归模型。
    • 强化概念:损失函数(交叉熵)、优化器(Adam)。
  4. 猫狗分类(CNN入门)

    • 目标:使用预训练的CNN模型(如VGG16)进行图像分类。
    • 强化概念:迁移学习、数据增强(ImageDataGenerator)。
    • 数据集:Dogs vs. Cats(Kaggle)
  5. 异常检测(自编码器)

    • 目标:检测信用卡数据中的异常样本。
    • 强化概念:自编码器原理、重构误差阈值。

💡 学习建议

  1. 每日代码:哪怕只写20分钟代码,保持手感。
  2. 先跑通再优化:项目初期直接使用示例代码,理解后再修改。
  3. 善用文档:遇到问题优先查阅scikit-learnTensorFlow官方文档。
  4. 加入社区:在Kaggle讨论区或Reddit的r/MachineLearning提问。

通过此计划,你将在3周内掌握机器学习的核心工作流,并具备独立解决实际问题的能力。最终目标不是记住所有算法,而是理解“数据-模型-评估”的闭环思维

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/70013.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CNN的各种知识点(四): 非极大值抑制(Non-Maximum Suppression, NMS)

非极大值抑制(Non-Maximum Suppression, NMS) 1. 非极大值抑制(Non-Maximum Suppression, NMS)概念:算法步骤:具体例子:PyTorch实现: 总结: 1. 非极大值抑制(…

GWO优化SVM回归预测matlab

灰狼优化算法(Grey Wolf Optimizer,简称 GWO),是由澳大利亚格里菲斯大学的 Mirjalii 等人于 2014 年提出的群智能优化算法。该算法的设计灵感源自灰狼群体的捕食行为,核心思想是对灰狼社会的结构与行为模式进行模仿。 …

elasticsearch8.15 高可用集群搭建(含认证Kibana)

文章目录 1.资源配置2.系统参数优化3.JDK17安装4.下载&安装ES 8.155.生成ES的证书(用于ES节点之间进行安全数据传输)6.修改ES 相关配置文件7.创建es用户并启动8.配置ES的账号和密码(用于ES服务端和客户端)9.下载和安装Kibana10.编辑Kibana配置文件11.启动Kiabana12.访问Kia…

地址查询API接口:高效查询地址信息,提升数据处理效率

地址查询各省市区API接口 地址查询是我们日常生活中经常遇到的一个需求,无论是在物流配送、地图导航还是社交网络等应用中,都需要通过地址来获取地理位置信息。为了满足这个需求,我们可以使用地址查询API接口来高效查询地址信息,提…

3、C#基于.net framework的应用开发实战编程 - 实现(三、三) - 编程手把手系列文章...

三、 实现; 三.三、编写应用程序; 此文主要是实现应用的主要编码工作。 1、 分层; 此例子主要分为UI、Helper、DAL等层。UI负责便签的界面显示;Helper主要是链接UI和数据库操作的中间层;DAL为对数据库的操…

leetcode解题思路分析(一百六十三)1409 - 1415 题

查询带键的排列 给定一个正整数数组 queries ,其取值范围在 1 到 m 之间。 请你根据以下规则按顺序处理所有 queries[i](从 i0 到 iqueries.length-1): 首先,你有一个排列 P[1,2,3,…,m]。 对于当前的 i ,找…

【自学笔记】GitHub的重点知识点-持续更新

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 GitHub使用指南详细知识点一、GitHub基础与账户管理1. GitHub简介2. 创建与管理GitHub账户3. 创建与配置仓库(Repository) 二、Git基础与Git…

vscode软件操作界面UI布局@各个功能区域划分及其名称称呼

文章目录 abstract检查用户界面的主要区域官方文档关于UI的介绍 abstract 检查 Visual Studio Code 用户界面 - Training | Microsoft Learn 本质上,Visual Studio Code 是一个代码编辑器,其用户界面和布局与许多其他代码编辑器相似。 界面左侧是用于访…

类和对象(下)——类型转化 static成员 内部类 匿名对象 拷贝对象优化

一、类型转换 1.1 类型转化特点 C支持内置类型隐式类型转换为类类型对象,需要有相关内置类型为参数的构造函数。构造函数前面加explicit就不再支持隐式类型转换。类类型的对象之间也可以隐式转换,需要相应的构造函数支持 内置类型转换为类类型对象&#…

基于场景图的零样本目标导航

参考论文:SG-Nav:Online 3D Scene Graph Prompting for LLM-based Zero-shot Object Navigation 0 前言 基于现成的视觉基础模型VFMs和大语言模型LLM构建了无需任何训练的零样本物体巡航框架SG-Nav。 通过VLMs将机器人对场景的观测构建为在线的3D场景图…

深入解析 clone():高效的进程与线程创建方法(中英双语)

深入解析 clone():高效的进程与线程创建方法 1. 引言 在 Unix/Linux 系统中,传统的进程创建方式是 fork(),它会复制父进程的地址空间来创建子进程。然而,fork() 复制的资源往往会被 exec() 立即替换,这会导致额外的内…

开屏广告-跳过神器

给大家介绍一款超实用的软件——SKIP,它堪称李跳跳的最佳平替!这款软件已经在Github开源免费,完全无需担心内置源问题,也无需导入任何规则。安装完成后,即可直接使用,非常便捷! 首次打开软件时…

大模型本地化部署(Ollama + Open-WebUI)

文章目录 环境准备下载Ollama模型下载下载Open-WebUI 本地化部署的Web图形化界面本地模型联网查询安装 Docker安装 SearXNG本地模型联网查询 环境准备 下载Ollama 下载地址:Ollama网址 安装完成后,命令行里执行命令 ollama -v查看是否安装成功。安装成…

自制虚拟机(C/C++)(三、做成标准GUI Windows软件,扩展指令集,直接支持img软盘)

开源地址:VMwork 要使终端不弹出&#xff0c; #pragma comment(linker, "/subsystem:windows /ENTRY:mainCRTStartup") 还要实现jmp near 0x01类似的 本次的main.cpp #include <graphics.h> #include <conio.h> #include <windows.h> #includ…

排序算法--桶排序

核心思想为分区间排序后合并。适用于数据均匀分布在一个范围内&#xff0c;或浮点数排序或范围明确的数据。如果需要处理整数或其他数据范围&#xff0c;可以通过调整BUCKET_RANGE的计算方式实现&#xff0c;例如对[0,100)的整数排序&#xff1a; int index arr[i] / 10; // …

【游戏设计原理】97 - 空间感知

一、游戏空间的类型 将游戏设计中的空间设计单独提取出来&#xff0c;可以根据其结构、功能和玩家的交互方式划分为以下几种主要类型。这些类型可以单独存在&#xff0c;也可以组合使用&#xff0c;以创造更加复杂和有趣的游戏体验。 1. 线性空间 定义&#xff1a;空间设计是…

va_list va_start va_end的概念和使用案例

va_list、va_start 和 va_end 是 C/C 中用于处理可变参数函数&#xff08;Variadic Functions&#xff09;的一组宏&#xff0c;定义在 <stdarg.h>&#xff08;C&#xff09;或 <cstdarg>&#xff08;C&#xff09;头文件中。它们允许函数接受不固定数量的参数&…

基于开源AI智能名片2 + 1链动模式S2B2C商城小程序视角下的个人IP人设构建研究

摘要&#xff1a;本文深入探讨在开源AI智能名片2 1链动模式S2B2C商城小程序的应用场景下&#xff0c;个人IP人设构建的理论与实践。通过剖析个人IP人设定义中的“诉求”“特质”“可感知”三要素&#xff0c;结合该小程序特点&#xff0c;阐述其对个人IP打造的影响与推动作用&…

数据库和数据表的创建、修改、与删除

1.标识符命名规则 数据库名、表名不得超过30个字符&#xff0c;变量名限制为29个 必须只能包含A-Z,a-z,0-9,_共63个字符 数据库名、表名、字段名等对象名中间不能包含空格 同一个MySQL软件中&#xff0c;数据库不能同名&#xff1b;同一个库中&#xff0c;表不能重名&#…

算法日记10:SC62求和(单调栈)(共享求解)

一、题目 二、题解&#xff1a; 1、首先&#xff0c;我们看到题目的第一个想法&#xff0c;就是把样例答案如何求解给列出来&#xff0c;图例如下 2、通过分析样例&#xff0c;可以很清晰的发现每一个数字都有其管辖的区间&#xff0c;因此我们可以想到能否找到一个数字它所管…