企业新网站seo推广建设网站时候应该注意哪些
web/
2025/9/29 6:06:15/
文章来源:
企业新网站seo推广,建设网站时候应该注意哪些,过期域名,网站后台如何开发原文地址#xff1a;https://blog.csdn.net/chaishen10000/article/details/79324016 最近一段时间都在学习深度学习#xff0c;想着在用户画像标签模型中看能不能用上#xff0c;终于#xff0c;用了一个多月的时间#xff0c;结合实际的场景和数据#xff0c;搭建了一套…原文地址https://blog.csdn.net/chaishen10000/article/details/79324016 最近一段时间都在学习深度学习想着在用户画像标签模型中看能不能用上终于用了一个多月的时间结合实际的场景和数据搭建了一套“孕妇标签”的深度学习模型。这篇文章重点介绍了在用户画像标签模型中运用深度学习建模的过程中我们遇到的一些问题以及其中的一些体会和思考对于深度学习的一些基础概念和模型文章没有过多的介绍。另外自己也属于深度学习的入门阶段若有理解有误的地方欢迎大家指正。什么是用户画像标签基于用户事实数据进行一定抽象后的用户特征表示拿电商为例用户的购物性别年龄消费能力等都是用户画像的标签。这些标签能帮助我们理解用户将用户进行归类进一步进行个性化运营例如针对高消费人群那我们可以展示比较有品味的服装给用户。标签建模的方法标签建模有什么方法可分为两大类:人工建模凭借经验对标签定义一个数据描述口径通过大数据ETL跑出标签结果再逐步通过调整口径达到运营可接受的模型。机器建模通过机器对标签样本数据的多维度学习建立机器自学习的标签模型可通过对样本数据的调整以及模型结构及参数的调整来逐步优化模型。两种建模方式各有优缺点这里介绍如何运用深度学习进行机器建模。下面以“孕妇标签”为例(电商场景下)我们是怎样一步步完成深度学习建模的。简陋的模型一开始思路很简单将用户的各个品类购买行为做为模型训练的特征并通过对品类划分中挑出和孕妇明显相关的品类(例如孕期护理孕妇装高跟鞋彩妆等)通过某些品类的购买行为筛选出训练正负样本例如按一年统计用户对各个品类的购买次数若孕妇相关品类购买次数超过5次则标识为正样本若高跟鞋彩妆类购买次数超过5次则标识为负样本。正负样本模型训练需要的特征数据都有了最简单的就是构造一个浅层神经网络模型将数据丢给模型看看模型能否自我训练学习这就是模型最初的样子这个版本的模型直接用Keras构造非常简单也可以直接看到实时训练的情况。准备了5万的样本训练数据大概几分钟就可以发现模型的Training accuracy和Validate accuracy都达到了0.9以上可以试试模型的效果但要再找出一批已知是否孕妇的数据是个大难题所以比较直接的就是找了几个(女)同事的帐号虽然测试数量少但比较有代表性很容易发现模型的问题: 对于几个月前是孕妇现在已经是妈妈的情况没有准确的识别出来。想想因为模型输入的数据是过去一年的购买记录模型无法感知数据在时间维度上的变化。时序模型由于孕妇标签的时间敏感性模型中需要考虑时间维度比如6个月前有购买过孕妇类最近2个月已经不再买了而是开始买婴幼品类的商品这个说明现在已经不再是孕妇了应该打上新生妈妈的标签了。因此首先在模型的特征维度上需要将一年的购买行为按时间间隔(月)拆开同时将用户的购买行为数据放在一个时间轴上这样可以提供更立体的特征数据给模型训练于是我们选用了可以感知时序数据的RNN模型对用户某段短时间内的购买行为综合分析学习这样模型更容易准确地判断出孕妇标签。比如用户购买平底鞋这个行为一般情况下对孕妇标签的判断没有太大的作用但如果用户购买平底鞋的时候还买了孕妇裤这就不同了购买平底鞋这个行为就变得和孕妇行为相关了和标签结果就有一定的相关性。就是因为加上用户前后购买行为这个Context而让数据更立体更丰富模型对标签的判断也就更准确。模型的特征是用户每个月对各个品类的购买次数比如我们对最近18个月的2000个品类进行统计得到18*2000的矩阵作为一个用户的特征表示所以模型的inputs维度是user_num * months * categorys (e.g. 10000 * 18 * 2000)output targets维度是user_num * 1 (e.g. 10000 * 1)模型采用LSTM对LSTM的最后一个output通过sigmoid映射到[0,1]后和target对比计算得出cost函数。模型训练完后再用测试数据校验了下已经可以准确区分出新生妈妈和孕妇了。但这个模型的输入特征不够丰富用户的行为除了购买之外点击行为也是放进来让学习维度更加丰富。多时序模型从用户的浏览-点击-购买这个转化漏斗可以知道用户的点击行为远比购买行为更频繁。以月为单位一个用户在某个品类的购买次数一般为1次很少超过10次。但点击不同如果以月为单位统计点击的数量会很大这样会有什么问题假设按自然月统计如果一个用户在1号那天就对某个品类点击次数达到10次我们知道用户对这个品类是有偏好的但如果放到1个月统计这个维度10次可能还没达到模型认为有强相关的程度。换句话说就是模型无法实时感知到用户的偏好变化。所以针对点击行为我们得采用以天为单位统计用户在各个品类下的点击次数作为模型的输入。这样就出现了购买行为和点击行为的两套时序模型他们的时间维度不同不能放在一套LSTM模型里只能分开两套再通过一层fully connected layer将两套LSTM的输出作为这层的输入得到最终的模型结果。模型调优结合点击和购买时序行为的模型使用样本的筛选规则得到的数据都可以准确的识别出结果但模型的泛化能力如何会不会overfit由于缺乏更丰富的数据样本并不好验证这点。所以对于模型的评估我们采取人工伪造数据的方式来校验比如将训练样本中的购买数据全部抹掉这样用一份只有点击的数据来校验模型对点击行为的学习能力再比如将训练样本中强孕妇相关品类的购买点击数据抹掉来验证模型对其他“潜在”的相关维度的学习能力。值得一提的是模型的训练样本是按照一定的规则进行人工筛选标注完成的而筛选的条件同时也是模型的学习维度中的一部分这意味着模型很容易学习到这些“人工设定”的规则而忽略那些“潜在”的维度和结果之间的相关性。模型容易出现“Memorize more than Learning”也就是缺失泛化能力。如何提高模型的泛化能力减少Hidden Size降低模型记忆单元数增加Dropout通过随机抹掉部分hidden layer的节点类似通过让模型变得简单同时通过将多个简单的模型的结果综合起来达到提高泛化能力的目的采用L2 Regularizer通过对权重的惩罚来提高模型泛化能力提供更丰富的训练样本让模型接触更多不一样的数据体会和思考深度学习模型更像一个黑盒子无法通过因果关系进行逻辑推导而只能通过不同的数据不断从外部试探理解模型人的很多特征都是会随着时间变化的用户画像的标签建模是需要考虑好时间维度的数据用户画像标签模型的数据样本获取成本大通过规则筛选的数据不够丰富容易导致模型泛化能力差
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/83742.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!