成为AI产品经理——模型构建过程(上)

目录

一、背景

1.对内

2.对外

二、模型构建过程 

1.模型设计

2.特征工程

① 数据清洗

② 特征提取

数值型数据

标签/描述类数据特征

非结构化数据(处理文本特征)

网络关系型数据 

③ 特征选择 

④ 训练集/测试集


一、背景

虽然产品经理不需要参与到模型构建工作中,但是我们需要对模型构建过程有一定的了解,有点两点好处:

1.对内

配合算法同学进行数据收集、模型训练、参数调优,及时跟进项目优化,应对突发状况。

2.对外

如果模型训练过程中出现问题,我们能够使用非技术性的话语向业务方解释,帮算法同学争取更多的时间。

二、模型构建过程 

 模型构建主要包括以下五个部分:

模型设计、特征工程、模型训练、模型验证、模型融合、模型部署,接下来我们对于以下概念依次讲解。

1.模型设计

模型设计时我们需要确认以下几个问题:

① 有没有必要建立这个模型?

② 我们当前的技术和资源能不能做这个模型?(数据源够不够、样本怎么获取、目标变量怎么设定)

③ 我们需要达到怎么样的预期结果?

 不同的需求决定了模型的应用场景,决定了它能够达到的业务预期。

2.特征工程

特征工程的概念是:将其他类型的数据转化成数量化信息以供模型训练。

特征工程是模型构建过程中耗时最长的一项工作,为什么特征工程耗时最长呢?

我们知道模型训练就是从数据中提取特征,然后根据特征使用算法来建立出对于未知数据进行预测的模型。算法逼近特征,而特征决定模型的上限。

特征工程里面又细分了其他工作模块:

数据清洗、特征提取、特征选择、训练集/测试集。

① 数据清洗

我们提供的数据并不是可以直接使用的数据,因为可能会存在异常数据、不均衡数据、数据残缺、量纲不一致等问题。

此时我们需要对残缺数据进行补全;对于干扰数据进行删除;对于异常数据进行标注;对于不均衡数据:丢弃较多的数据或者补充较少的数据;对于量纲(单位)不一致的数据进行归一化处理。

② 特征提取

特征提取通常有四种常见类型:数值型特征数据,标签或描述类数据,非结构化数据,网络关系型数据。

  • 数值型数据

包含大量数值特征的数据。使用数值数据时,我们需要分两部分:主体变量特征和度量维度特征。比如京东的浏览页面次数是主体特征数据,浏览时长和浏览次数排名就是其他度量维度特征。

  • 标签/描述类数据特征

有些特征没有大小关系,无法使用数值表示,我们称为标签/描述类数据。比如:好瓜、坏瓜。这种就是标签/描述类数据,我们可以将好瓜标记为[0,1],将坏瓜标记为[1,0]。

  • 非结构化数据(处理文本特征)

 非结构化数据通常出现在UGC(User Generated Content)用户生成内容。比如用户的评论信息。现在我们需要使用用户的评论信息进行特征提取,这里需要使用到自然语言处理的方法。比如:买了一箱,孩子很喜欢。我们筛选出“孩子”,就可以知道这是一位亲子用户。

简而言之,非结构化数据(文本特征数据),我们就是进行文本清洗和挖掘,挖掘出一定的用户特征。

  • 网络关系型数据 

网络关系型数据就是通过数据信息获得用户的社交关系。比如我们可以通过同一公司地址基本确定两者是同事关系。我们可以通过用户同一家庭地址基本确定两者的亲人关系。

通常来说:算法工程师可以通过通讯录、收货地址、位置信息、好友助力等信息确定用户的关系网络,这个关系网络中的信息就可以作为我们特征提取的参考。

③ 特征选择 

第一步:跟进特征覆盖率、IV指标(信息的价值量)进行筛选。

IV:判断哪些特征进入模型,这个特征重不重要就使用IV指标。IV值就是用来衡量变量预测能力的,IV值越大,表示该变量的预测能力越强。

第二步:根据业务需求设定阈值,筛选掉一部分数据。

第三步:根据特征的稳定性筛选数据。

IV指标详解:机器学习-变量筛选之IV值和WOE - 知乎 (zhihu.com)

④ 训练集/测试集

 做完以上的工作我们就开始划分训练集和测试集了,我们通常将样本60%数据作为训练集,20%作为验证集,剩余20%用于测试集,三者数据相互独立。

训练集用于训练模型,验证集用于对训练后的模型进行验证微调,测试集用于对训练和验证后的数据进行测试,评估模型是否达到业务指标。

在模型构建过程中,因为很多因素的不确定性,导致会出现很多计划外的工作,所以你需要充分的了解模型构建流程为算法同学争取更多的时间和资源。

参考文献:刘海丰——《成为AI产品经理》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/163704.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux应用开发基础知识——I2C应用编程(十二)

前言: I2C(Inter-Integrated Circuit BUS)是集成电路总线,是目前应用最广泛的总线之一,最初由PHILIPS(现为NXP)设计。它使用多主从架构,主要用于连接低速周边设备。I2C总线在硬件物理…

WorkPlus即时通讯,打通上下游产业链,构建企业生态圈

如今,随着信息技术的迅速发展,智慧水务、智慧医疗、智慧城市、智慧教育、智慧政务等领域正蓬勃发展。在这个智慧时代,企业需要一个具备开放性和扩展性的平台级产品,以满足多样化的业务需求。WorkPlus作为一款全新的移动底座产品&a…

String 真的不可变吗?

为什么 String 类不可变 final修饰符: String类被声明为final,这意味着它不能被继承。因此,无法创建String的子类来修改其行为。私有字符数组(char[]): String类内部使用私有的字符数组来存储字符串的内容…

Excel文件比较不再繁琐,xlCompare助您快速找出差异

概要 在现代职场中,Excel 已成为工作中不可或缺的利器。 在日常操作中,我们会遇到需要对两个或多个 Excel 文件进行比较的情况,此时,一款高效的 Excel 文件比较工具就显得尤为重要。 本文将为您介绍一款功能强大、优势明显的 Exc…

创新建筑形式:气膜体育馆助力校园体育设施革新

体育场馆在校园中扮演着重要的角色,是学生们进行体育锻炼、比赛和各类体育活动的场所。传统的室内体育馆建设往往需要大量资金和漫长的建设周期,但随着气膜体育馆的崭露头角,校园体育设施的面貌正迎来一场革新。 快速搭建,灵活性极…

电机应用开发-直流有刷电机电流环控制实现

目录 直流有刷电机电流环控制实现 硬件设计 直流电机电流环控制-位置式PID实现 编程要点 配置ADC可读取电流值 配置基本定时器6产生定时中断读取当前电路中驱动电机的电流值并执行PID运算 配置定时器1输出PWM控制电机 ADC数据处理 编写位置式PID算法 直流电机电流环控…

3、领导跟你谈话,讲到你的团队里面的好友,公司会进行观察裁员,你会去传话么?

作为一个团队成员,我会认真听取领导的意见,并尊重公司的决定。然而,作为一个好友,我也会考虑他们的利益,我会与他们沟通,提醒他们注意自己的表现和工作,努力提高业绩和工作质量,以确…

5个免费在线工具推荐

NSDT 三维场景建模工具GLTF/GLB在线编辑器Three.js AI自动纹理化开发包YOLO 虚幻合成数据生成器3D模型在线转换 1、NSDT 三维场景建模 访问地址:NSDT 编辑器 2、GLTF/GLB在线编辑器 访问地址:GLTF 编辑器 3、Three.js AI自动纹理化开发包 图一为原始模…

Linux下安装两个版本python

1 python下载: 官网地址:Download Python | Python.org 第一:点击下载如下图: 第二:找到对应的python版本源码包: 点击右键复制下载地址,如下图 例如我的是:https://www.python.org/…

【鸿蒙应用ArkTS开发系列】- 云开发入门实战二 实现省市地区联动地址选择器组件(上)

目录 概述 云数据库开发 一、创建云数据库的对象类型。 二、预置数据(为对象类型添加数据条目)。 三、部署云数据库 云函数实现业务逻辑 一、创建云函数 二、云函数目录讲解 三、创建resources目录 四、获取云端凭据 五、导出之前创建的元数据…

企业如何通过软文推广提高竞争力

数字时代我们每天接收到的信息远远超过可接受的量,且技术进步带来的“信息茧房”使用户很难获取真正有效的信息,但越是杂乱的信息环境,有价值信息的穿透力就越强,软文推广正是凭借价值感信息助力企业提高竞争力,接下来…

RabbitMQ快速学习之WorkQueues模型、三种交换机、消息转换器(SpringBoot整合)

文章目录 前言一、WorkQueues模型消息发送消息接收能者多劳 二、交换机类型1.Fanout交换机消息发送消息接收 2.Direct交换机消息接收消息发送 3.Topic交换机消息发送消息接收 三、编程式声明队列和交换机fanout示例direct示例基于注解 四、消息转换器总结 前言 WorkQueues模型…

C plus plus

环境配置 vscodewindows vscode c 环境配置(终极版)_vscode配置c/c环境_BangBang的博客-CSDN博客VsCode安装和配置C环境详细全流程_vscode安装c-CSDN博客MinGW、MinGW-w64 与TDM-GCC 应该如何选择? - 知乎、VsCode安装和配置C环境详细全流程_vscode安装c-CSDN博客 …

​LeetCode解法汇总5-正则表达式匹配​

目录链接: 力扣编程题-解法汇总_分享记录-CSDN博客 GitHub同步刷题项目: https://github.com/September26/java-algorithms 原题链接:力扣(LeetCode)官网 - 全球极客挚爱的技术成长平台 描述: 「HTML 实…

Educoder中Hive综合应用案例——用户学历查询

第1关:查询每一个用户从出生到现在的总天数 ---------- 禁止修改 ----------drop database if exists mydb cascade; ---------- 禁止修改 -------------------- begin ---------- ---创建mydb数据库 create database mydb;---使用mydb数据库 use mydb;---创建表user create …

电脑找不到xinput1_3.dll怎么修复,快速处理dll问题的5个方法分享

在使用电脑的过程中,我们常常会遇到一些常见的问题,其中之一就是“电脑缺少xinput1_3.dll”。这个问题可能会影响到我们对电脑的使用体验,甚至导致某些软件无法正常运行。在我遇到这个问题并解决之后,我深刻地体会到了解决问题的重…

迅镭激光板材切割自动化生产线中标高端机械装备龙头豪迈集团!

近年来,中国制造业逐步由低端制造业向高端制造业迈进、由劳动密集型向技术密集型转变,智能制造带动了制造业生产环节的自动化、信息化、数字化、智能化的迭代升级。 位于山东省的高端机械装备龙头——豪迈集团,紧跟国家发展战略,加…

【Spring集成MyBatis】MyBatis的Dao层实现(基于配置,非注解开发)

文章目录 1. MyBatis的dao层实现(传统方式)——需要写接口及其实现类2. MyBatis的代理开发方式——仅需写接口 1. MyBatis的dao层实现(传统方式)——需要写接口及其实现类 传统方式就是在项目下边建立dao包,里面包含接口及其实现类,文件结构如下&#x…

交直流一体化电源系统测试步骤详解

交直流一体化电源拥有高度适应性,可以用于不同的电力需求领域。但是为了确保其质量和性能,需要对交直流一体化电源进行各项测试以保证正常工作。本文纳米软件将介绍交直流一体化电源的测试方法,以及如何用交直流一体化电源测试系统进行测试。…

Java,数据结构与集合源码,关于Map接口的实现类(HashMap、LinkedHashMap)

HashMap中的元素的特点: HashMap中的所有key之间是不可重复的、无序的。所有的key构成一个Set集合。 HashMap中的所有的value彼此之间是可重复的、无序的。所有的value构成一个Collection集合。 HashMap中的一对key-value,就构成了一个entry。Map中的ent…