企业新网站seo推广wordpress 微网站

pingmian/2025/10/8 16:01:53/文章来源:
企业新网站seo推广,wordpress 微网站,网页游戏排行榜知乎,哈尔滨网站建设多少钱原文地址#xff1a;https://blog.csdn.net/chaishen10000/article/details/79324016 最近一段时间都在学习深度学习#xff0c;想着在用户画像标签模型中看能不能用上#xff0c;终于#xff0c;用了一个多月的时间#xff0c;结合实际的场景和数据#xff0c;搭建了一套…原文地址https://blog.csdn.net/chaishen10000/article/details/79324016 最近一段时间都在学习深度学习想着在用户画像标签模型中看能不能用上终于用了一个多月的时间结合实际的场景和数据搭建了一套“孕妇标签”的深度学习模型。这篇文章重点介绍了在用户画像标签模型中运用深度学习建模的过程中我们遇到的一些问题以及其中的一些体会和思考对于深度学习的一些基础概念和模型文章没有过多的介绍。另外自己也属于深度学习的入门阶段若有理解有误的地方欢迎大家指正。什么是用户画像标签基于用户事实数据进行一定抽象后的用户特征表示拿电商为例用户的购物性别年龄消费能力等都是用户画像的标签。这些标签能帮助我们理解用户将用户进行归类进一步进行个性化运营例如针对高消费人群那我们可以展示比较有品味的服装给用户。标签建模的方法标签建模有什么方法可分为两大类:人工建模凭借经验对标签定义一个数据描述口径通过大数据ETL跑出标签结果再逐步通过调整口径达到运营可接受的模型。机器建模通过机器对标签样本数据的多维度学习建立机器自学习的标签模型可通过对样本数据的调整以及模型结构及参数的调整来逐步优化模型。两种建模方式各有优缺点这里介绍如何运用深度学习进行机器建模。下面以“孕妇标签”为例(电商场景下)我们是怎样一步步完成深度学习建模的。简陋的模型一开始思路很简单将用户的各个品类购买行为做为模型训练的特征并通过对品类划分中挑出和孕妇明显相关的品类(例如孕期护理孕妇装高跟鞋彩妆等)通过某些品类的购买行为筛选出训练正负样本例如按一年统计用户对各个品类的购买次数若孕妇相关品类购买次数超过5次则标识为正样本若高跟鞋彩妆类购买次数超过5次则标识为负样本。正负样本模型训练需要的特征数据都有了最简单的就是构造一个浅层神经网络模型将数据丢给模型看看模型能否自我训练学习这就是模型最初的样子这个版本的模型直接用Keras构造非常简单也可以直接看到实时训练的情况。准备了5万的样本训练数据大概几分钟就可以发现模型的Training accuracy和Validate accuracy都达到了0.9以上可以试试模型的效果但要再找出一批已知是否孕妇的数据是个大难题所以比较直接的就是找了几个(女)同事的帐号虽然测试数量少但比较有代表性很容易发现模型的问题: 对于几个月前是孕妇现在已经是妈妈的情况没有准确的识别出来。想想因为模型输入的数据是过去一年的购买记录模型无法感知数据在时间维度上的变化。时序模型由于孕妇标签的时间敏感性模型中需要考虑时间维度比如6个月前有购买过孕妇类最近2个月已经不再买了而是开始买婴幼品类的商品这个说明现在已经不再是孕妇了应该打上新生妈妈的标签了。因此首先在模型的特征维度上需要将一年的购买行为按时间间隔(月)拆开同时将用户的购买行为数据放在一个时间轴上这样可以提供更立体的特征数据给模型训练于是我们选用了可以感知时序数据的RNN模型对用户某段短时间内的购买行为综合分析学习这样模型更容易准确地判断出孕妇标签。比如用户购买平底鞋这个行为一般情况下对孕妇标签的判断没有太大的作用但如果用户购买平底鞋的时候还买了孕妇裤这就不同了购买平底鞋这个行为就变得和孕妇行为相关了和标签结果就有一定的相关性。就是因为加上用户前后购买行为这个Context而让数据更立体更丰富模型对标签的判断也就更准确。模型的特征是用户每个月对各个品类的购买次数比如我们对最近18个月的2000个品类进行统计得到18*2000的矩阵作为一个用户的特征表示所以模型的inputs维度是user_num * months * categorys (e.g. 10000 * 18 * 2000)output targets维度是user_num * 1 (e.g. 10000 * 1)模型采用LSTM对LSTM的最后一个output通过sigmoid映射到[0,1]后和target对比计算得出cost函数。模型训练完后再用测试数据校验了下已经可以准确区分出新生妈妈和孕妇了。但这个模型的输入特征不够丰富用户的行为除了购买之外点击行为也是放进来让学习维度更加丰富。多时序模型从用户的浏览-点击-购买这个转化漏斗可以知道用户的点击行为远比购买行为更频繁。以月为单位一个用户在某个品类的购买次数一般为1次很少超过10次。但点击不同如果以月为单位统计点击的数量会很大这样会有什么问题假设按自然月统计如果一个用户在1号那天就对某个品类点击次数达到10次我们知道用户对这个品类是有偏好的但如果放到1个月统计这个维度10次可能还没达到模型认为有强相关的程度。换句话说就是模型无法实时感知到用户的偏好变化。所以针对点击行为我们得采用以天为单位统计用户在各个品类下的点击次数作为模型的输入。这样就出现了购买行为和点击行为的两套时序模型他们的时间维度不同不能放在一套LSTM模型里只能分开两套再通过一层fully connected layer将两套LSTM的输出作为这层的输入得到最终的模型结果。模型调优结合点击和购买时序行为的模型使用样本的筛选规则得到的数据都可以准确的识别出结果但模型的泛化能力如何会不会overfit由于缺乏更丰富的数据样本并不好验证这点。所以对于模型的评估我们采取人工伪造数据的方式来校验比如将训练样本中的购买数据全部抹掉这样用一份只有点击的数据来校验模型对点击行为的学习能力再比如将训练样本中强孕妇相关品类的购买点击数据抹掉来验证模型对其他“潜在”的相关维度的学习能力。值得一提的是模型的训练样本是按照一定的规则进行人工筛选标注完成的而筛选的条件同时也是模型的学习维度中的一部分这意味着模型很容易学习到这些“人工设定”的规则而忽略那些“潜在”的维度和结果之间的相关性。模型容易出现“Memorize more than Learning”也就是缺失泛化能力。如何提高模型的泛化能力减少Hidden Size降低模型记忆单元数增加Dropout通过随机抹掉部分hidden layer的节点类似通过让模型变得简单同时通过将多个简单的模型的结果综合起来达到提高泛化能力的目的采用L2 Regularizer通过对权重的惩罚来提高模型泛化能力提供更丰富的训练样本让模型接触更多不一样的数据体会和思考深度学习模型更像一个黑盒子无法通过因果关系进行逻辑推导而只能通过不同的数据不断从外部试探理解模型人的很多特征都是会随着时间变化的用户画像的标签建模是需要考虑好时间维度的数据用户画像标签模型的数据样本获取成本大通过规则筛选的数据不够丰富容易导致模型泛化能力差

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/90021.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一级a做爰网站中国php 金融网站源码

实验三 一  实验名称 感知器设计 二 目的和意义 使用感知器完成线性分类任务 三 操作步骤或算法结构 数据预处理。载入数据文件( iris.csv 文件)中的数据,并将其分成样本向量矩阵X和样本分类结果向量 G \bf G G。 给 4 4 4 列向量的…

绮思网站建设qswoo高端网站制造

给定一个字符串 s,找到 s 中最长的回文子串。你可以假设 s 的最大长度为 1000。 示例 1: 输入: "babad" 输出: "bab" 注意: "aba" 也是一个有效答案。 示例 2: 输入: "cbbd" 输出: "bb"…

太原做网站哪家好移动端数据可视化

🎄欢迎来到边境矢梦的csdn博文🎄 🎄本文主要梳理计算机组成原理中 存储系统的知识点和值得注意的地方 🎄 🌈我是边境矢梦,一个正在为秋招和算法竞赛做准备的学生🌈 🎆喜欢的朋友可以…

东旭网站建设seo优化推广招聘

欢迎来到文思源想的ai空间,这是技术老兵重学ai以及成长思考的第7篇分享! 工欲善其事必先利其器,为了ai学习的效能提升,放假期间对google浏览器做了一次系统整改,添加了一些配置和插件,这里既有一些显示、主…

做国际物流在哪些网站找客户百度seo一本通

35的年纪,上有老下有小,即将步入中年危机,在这个节骨眼上被辞,能不悲观吗? 在这个年纪人们往往追求的是稳定的工作和生活,而进入一个自己不熟悉的行业并不是一个好的选择。 况且,你认为的外包…

单位网站建设做到哪个科目海宁公司做网站

第四章 机器学习 六、多项式回归 1. 什么是多项式回归 线性回归适用于数据呈线性分布的回归问题。如果数据样本呈明显非线性分布,线性回归模型就不再适用(下图左),而采用多项式回归可能更好(下图右)。例…

php网站开发遇到的问题出国看病网站开发

【实例简介】3dsmax导出gltf格式插件,里面包括插件,插件使用说明,插件功能介绍;【实例截图】【核心代码】3dsmx_to_gltf格式插件└── 3dsMax to gltf 2├── 3ds Max│ ├── CHANGELOG.md│ ├── Max2Babylon│ │ …

合肥网站建设网站模板网站后台搭建图文

原文请看:http://www.douban.com/note/275619382/ 《昂着头的艺术》文/伯爵在城堡(原载于《全球商业经典》2013年4月刊)2003 年夏天,电视里到处是带着口罩的“面具侠”,连广告都比平常更少了。远在海南出差的老妈半夜两点钟打来一…

免费看片网站wordpress 小工具区

来源:传感器专家网物联网产业是传感器应用最广泛的领域之一,研发新型传感器,做传感器市场,都不能不考虑物联网产业的需求。2021年随着COVID-19 病毒的存在已常态化,防疫抗疫进入了拉锯阶段;波及全球的“芯片…

广东官网网站建设企业网页游戏开服表 怎么删除

前言 在我们日常的开发调试中,会在 URL 上添加一些特殊的小尾巴 用来显示调试界面或者开启一些特殊功能,当你接触了越来越多的系统后,你需要使用的小尾巴就变得越来越多,记忆和使用成本非常大,以及含有小尾巴的网址 在…

素材解析网站搭建新乡个人网站建设哪家好

知识点: 如果a,b均是正整数且互质,那么由axby,x>0,y>0,那么由这两个数不能组成的最大的数是:a*b-a-b 我们可以发现,模9的时候有这样一个规律: 对X模Y,其实等于X每一位的数的和SUM模Y。 记住,这个方法只能模9的时…

微信端网站开发模板网站关键词过多

一,工具简介 vfsreadlat.py工具用于跟踪VFS读取延迟分布情况,示例的运行结果是一个函数延迟分布直方图。 二,代码示例 #!/usr/bin/python# USAGE: vfsreadlat.py [interval [count]] # # The default interval is 5 seconds. A Ctrl-C will print the partially # gathere…

外贸营销型网站建站哈 做网站

vor: 来自拉丁动词vorare,指to eat,-ivorous指吃某种食物的eater。carn肉,肉欲vore吃→吃肉的;carnival狂欢节,谢肉节voracious a 狼吞虎咽的(voracious多…..的--吃多的) voracity n 贪食(voracilty) devour v 吞吃&a…

重庆教育建设集团有限公司官方网站wordpress 上传word

前言 特征重要性分析用于了解每个特征(变量或输入)对于做出预测的有用性或价值。目标是确定对模型输出影响最大的最重要的特征,它是机器学习中经常使用的一种方法。 为什么特征重要性分析很重要? 如果有一个包含数十个甚至数百个特征的数据集,每个特征…

二级域名建站做网络推广可以通过哪些渠道推广

这里我们要知道表单,但是在实际写jq的时候,用到貌似不是很多,所以这里我就直接转梦三秋网站上的课件啦。 当然等以后要用的时候,我们在拿出来研究下,毕竟表单这块,看起来真的很多,眼晕啊~~~ 选…

林州网站建设报价网页设计工作流程

💓博客主页:江池俊的博客⏩收录专栏:C语言刷题专栏👉专栏推荐:✅C语言初阶之路 ✅C语言进阶之路💻代码仓库:江池俊的代码仓库🎉欢迎大家点赞👍评论📝收藏⭐&a…

app介绍网站模板免费下载中国十大广告公司

上一节我们创建了 router 连通了 vlan100 和 vlan101, 今天分析router是如何工作的。 首先查看控制节点的网络结构发生了什么变化: br-int 上多了两个 port: 1. qr-d295b258-45,从命名上可以推断该 interface 对应 router_100_101 的 interf…

网站制作电话多少有必要花钱学视频剪辑吗

图片来源:花瓣网文章来源人工智能与大数据生活如需转载,请联系原作者授权最近北京房租成了热门话题,到底北京的房租有多高?本次实战是爬取北京海淀区一居室的租房信息,共爬取了300套房源信息,看一下北京的房…

网站页面尺寸大小苏州做网站需要多少钱

使用C语言通过冒泡排序模拟实现sort 思路:调用模拟的sort,首先函数中,有多种类型的数组要进行排序,使用void*类型,因为需要排序其它类型数组所以需要修改冒泡排序中的交换条件和交换函数。 1.设计模拟sort排序函数 …

深圳做网站哪里好清远清城区

模拟和数字I/O,667 MHz双核CPU,512 MB DRAM,512 MB存储容量,Zynq-7020 FPGA CompactRIO Single-Board控制器 sbRIO‑9637是一款嵌入式控制器,在单块印刷电路板(PCB)上集成了运行NI Linux Real‑Time的实时处理器、用户…