【大厂AI课学习笔记】【2.1 人工智能项目开发规划与目标】(4)数据准备的流程

今天学习的是数据准备的流程。

我们已经知道,数据准备占了AI项目超过一半甚至79%的时间。

那么数据准备,都做些什么,有哪些流程。

1.数据采集

  • 观测数据
  • 人工收集
  • 调查问卷
  • 线上数据库

2.数据清洗

  • 有缺失的数据
  • 有重复的数据
  • 有内容错误的数据,例如逻辑错误、格式错误
  • 有不需要的数据

3.数据标注

数据标注即通过分类、画框、标注、注释等,对图片、语音、文本等数据进行处理,标记

对象的特征,以作为机器学习标签的过程。

 4.数据划分

  • 训练集
  • 测试集
  • 一般8:2或者7:3,训练集的数据较大

5.数据验收

  • 合法性
  • 准确性
  • 完整性
  • 一致性

延伸学习:

1. 数据采集

  • 确定数据源:根据业务需求,确定需要采集数据的来源,如数据库、API、日志文件、传感器等。
  • 设计采集策略:制定数据采集的频率、方式(如实时采集、批量采集)以及数据存储格式。
  • 实施采集:编写或使用现成的工具来从数据源中抓取数据。

示例

  • 电商网站通过日志系统收集用户的浏览和购买记录,为推荐系统提供数据。
  • 智能家居设备通过传感器实时采集温度、湿度等数据,用于智能控制。

2. 数据清洗

  • 去除重复数据:识别并删除重复的记录。
  • 处理缺失值:使用均值、中位数、众数等统计方法填充缺失值,或根据算法预测缺失值。
  • 纠正错误值:通过数据验证和逻辑规则识别并更正错误的数据。
  • 格式化数据:将数据转换为统一的格式,如日期、时间戳等。

示例

  • 在医疗数据分析中,清洗掉由于设备故障产生的异常血压读数。
  • 在金融领域,处理由于系统故障导致的交易数据中的缺失值。

3. 数据标注

  • 定义标注规则:根据业务需求,制定数据标注的标准和规则。
  • 实施标注:人工或使用自动化工具对数据进行标注。
  • 标注质量检查:验证标注的准确性,确保数据质量。

示例

  • 在图像识别项目中,人工标注图片中的物体类别(如猫、狗、汽车等)。
  • 在语音识别中,对音频数据进行文本标注,用于训练语音转文字模型。

4. 数据划分

  • 随机划分:将数据随机划分为训练集、验证集和测试集。
  • 分层抽样:确保每个子集中的数据分布与整体数据分布一致。
  • 时间序列划分:对于时间序列数据,按照时间顺序进行划分。

示例

  • 在股票价格预测项目中,按照时间序列划分训练集和测试集,确保模型能够学习到时间序列中的模式。
  • 在图像分类任务中,随机划分图像数据,但确保每个类别在训练集和测试集中都有代表。

5. 数据验收

  • 数据质量检查:验证数据的完整性、准确性和一致性。
  • 业务需求符合性检查:确保数据满足业务需求和项目目标。
  • 数据安全性检查:确保数据在处理、存储和传输过程中符合安全标准。

示例

  • 在智能客服项目中,验收阶段发现部分用户对话数据存在隐私泄露风险,于是进行数据脱敏处理。
  • 在推荐系统项目中,验收阶段发现数据集中缺少关键的用户行为数据,于是重新采集这部分数据。

6. 数据交付

  • 数据打包:将数据整理成适当的格式和文件结构,便于模型训练和部署。
  • 数据传输:安全地将数据传输给模型训练团队或存储到指定位置。
  • 数据文档编写:提供数据字典、数据说明文档等,帮助使用者理解数据。

示例

  • 在自然语言处理项目中,将清洗和标注后的文本数据打包成CSV格式,并附带数据字典说明每个字段的含义,然后交付给模型训练团队。
  • 在图像识别项目中,将图像数据和对应的标注文件整理成特定的文件夹结构,并通过加密方式传输给远程服务器上的模型训练环境。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/687160.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

51单片机编程应用(C语言):DS1302实时时钟

单片机计时的缺陷: 1.他的精度不高,没有时钟芯片精度高, 2.会占用单片机CPU的时间, 3.单片机的时钟无法掉电继续运行,(最大的缺点) DS1302芯片内部有备用电池,可以掉电继续计时…

fusion360 操作总结(不断更新)

平移缩放旋转快捷键 画布选择Windows 组合键macOS 组合键平移按住鼠标中键按住鼠标中键缩放滚动鼠标中键滚动鼠标中键动态观察旋转按住 Shift 键并按住鼠标中键按住 Shift 键并按住鼠标中键绕点动态观察按住 Shift 键单击并按住鼠标中键按住 Shift 键单击并按住鼠标中键撤消Ct…

MCU看门狗

目录 一、独立看门狗(IWDG) 1、IWDG 主要作用 2、IWDG 主要特性 3、编程控制 4、注意地方 二、窗口看门狗(WWDG) 1、窗口看门狗作用: 2、窗口看门狗产生复位信号有两个条件: 3、WWDG 框图 4、WWDG 将要复位的时间 5、编程控制 一、独立看门…

STL:优先级队列的实现

STL中优先级队列本质上就是堆。在上一篇博客中讲到过:堆是一种完全二叉树,逻辑结构上看起来像树,但在物理结构中是存储在线性表中。与普通线性表不同的是,堆中数据大小是规律排列的:小堆中每个节点都大于它的父节点&am…

SpringBoot实战:打造企业资产管理系统

✍✍计算机编程指导师 ⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡ Java实战 |…

001kafka源码项目gradle报错UnsupportedClassVersionError-kafka-报错-大数据学习

1 报错提示 java.lang.UnsupportedClassVersionError: org/eclipse/jgit/lib/AnyObjectId has been compiled by a more recent version of the Java Runtime (class file version 55.0), this version of the Java Runtime only recognizes class file versions up to 52.0 如…

Linux线程(1)--线程的概念 | 线程控制

目录 前置知识 线程的概念 Linux中对线程的理解 重新定义进程与线程 重谈地址空间 线程的优缺点 线程的优点 线程的缺点 线程异常 线程的用途 Linux线程 VS 进程 线程控制 创建线程 线程等待 线程终止 线程ID的深入理解 前置知识 我们知道一个进程有属于自己的P…

docker (六)-进阶篇-数据持久化最佳实践MySQL部署

容器的数据挂载通常指的是将宿主机(虚拟机或物理机)上的目录或文件挂载到容器内部 MySQL单节点安装 详情参考docker官网文档 1 创建对应的数据目录、日志目录、配置文件目录(参考二进制安装,需自己建立数据存储目录) mkdir -p /data/mysq…

计算机毕业设计springboot_vue房屋租赁系统_ku668

1.掌握Html,Css,JavaScript等基础编程语言。 2.掌握Vue框架,node环境,数据库等知识。 3.掌握开发系统的基本流程。 …

你了解API测试吗?如何充分的测试一个API?

什么是API? API代表应用程序接口。API是软件系统中的中间层,负责数据源与用户看到的图形用户界面(GUI)之间的数据通信。换句话说,API是软件的业务层,它在表示层和数据层之间创建连接。 API测试侧重于所谓的…

2.17C语言学习

P1678 烦恼的高考志愿 写完后发现题解里面用的是优先队列或者二分什么的,其实这个题可以贪心,我们把学校的分数线和学生的成绩分别进行排序,然后从前往后遍历,每次比较当前学校的分数与学生成绩的差距和下一个学校的分数与学生成…

re-captioning技术是什么

参考https://zhuanlan.zhihu.com/p/664192860 模型对图片进行caption操作时,输出的标题一般描述图片中的主体,而忽视了背景、常识关系等更为细节的描述。 图片比较重要的细节的描述应当包括: 物体存在的场景。如:在厨房的水槽&am…

Qt之条件变量QWaitCondition详解(从使用到原理分析全)

QWaitCondition内部实现结构图: 相关系列文章 C之Pimpl惯用法 目录 1.简介 2.示例 2.1.全局配置 2.2.生产者Producer 2.3.消费者Consumer 2.4.测试例子 3.原理分析 3.1.辅助函数CreateEvent 3.2.辅助函数WaitForSingleObject 3.3.QWaitConditionEvent …

阿里云服务器服务费怎么计算的?详细报价解析

2024年最新阿里云服务器租用费用优惠价格表,轻量2核2G3M带宽轻量服务器一年61元,折合5元1个月,新老用户同享99元一年服务器,2核4G5M服务器ECS优惠价199元一年,2核4G4M轻量服务器165元一年,2核4G服务器30元3…

001 - Hugo, 创建一个网站

001 - Hugo, 创建一个网站安装hugoWindows系统Macos Hugo博客搭建初始化博客主题安装配置博客各个页面开始创作创建 GitHub Page 仓库本地调试和预览发布内容 教程及鸣谢文字教程视频教程 001 - Hugo, 创建一个网站 这篇文章假设你已经: 了解基本的终端命令行知识&…

黑马鸿蒙教程学习1:Helloworld

今年打算粗略学习下鸿蒙开发,当作兴趣爱好,通过下华为那个鸿蒙开发认证, 发现黑马的课程不错,有视频和完整的代码和课件下载,装个devstudio就行了,建议32G内存。 今年的确是鸿蒙大爆发的一年呀,…

Win32汇编数组学习2

之前学习过win32汇编数组;还不熟悉;继续熟悉; 先做几个基本的对话框,有一个静态文本框; 定义数组之后,用 wsprintf 函数格式化,然后调用 SetDlgItemText 赋值给静态文本框; arr1 …

【力扣hot100】刷题笔记Day5

前言 回学校了,荒废了半天之后打算奋发图强猛猛刷题,找实习!赚钱!! 560. 和为 K 的子数组 - 力扣(LeetCode) 前缀法 哈希表 这个题解解释比官方清晰,截个图方便看,另一…

OpenCV-42 直方图均匀化

目录 一、直方图均匀化原理 二、直方图均匀化在OpenCV中的运用 一、直方图均匀化原理 直方图均匀化是通过拉伸像素强度的分布范围,使得在0~255灰阶上的分布更加均匀,提高图像的对比度。达到改善图像主管视觉效果的目的。对比度较低的图像适合使用直方…

由于找不到MSVCP140.dll无法运行软件游戏,多种解决方法分享

电脑系统在运行过程中,当出现“由于找不到MSVCP140.dll”这一提示时,可能会引发一系列潜在的问题与影响。当电脑无法找到这个特定的dll文件时,意味着相关应用可能无法顺利加载并执行必要的组件,进而导致程序无法启动或运行过程中频…