云服务器做淘客网站部门网站建设目的
云服务器做淘客网站,部门网站建设目的,微信开发网站设计,wordpress vip视频欢迎关注公众号#xff1a;数据运营入表资产化服务 获取更多算法源码材料
2023数据资源入表白皮书#xff0c;推荐系统源码下载-CSDN博客
用友BIP数据资产入表解决方案白皮书#xff0c;推荐系统源码下载-CSDN博客 我们都知道一般单值类别特征加入到CTR预估模型的方法是先…欢迎关注公众号数据运营入表资产化服务 获取更多算法源码材料
2023数据资源入表白皮书推荐系统源码下载-CSDN博客
用友BIP数据资产入表解决方案白皮书推荐系统源码下载-CSDN博客 我们都知道一般单值类别特征加入到CTR预估模型的方法是先对单值类别特征进行one-hot然后和embedding 矩阵相乘转换成多维稠密特征如下图 1 所示 ▲ 图1. 单值类别特征处理方法 在现实实际问题中往往还会出现多值类别特征比如2019腾讯广告算法大赛中用户的行为兴趣特征就是多值类别特征也就是一个用户可以有多个类别的兴趣比如打篮球乒乓球和跳舞等并且不同用户的兴趣个数不一样。还有2019知乎看山杯比赛中的用户感兴趣的话题特征也就是一个用户感兴趣的话题可以有多个并且不同的用户感兴趣的话题个数不一这些特征的形式都一般是如下结构拿用户感兴趣的话题特征来说 在CTR预估模型中对这种多值类别特征的常用处理方法总结归纳如下
▌非加权法
最常规的也最简单的是先对所有‘话题’集合进行one hot编码然后按照图 1 方式对多值类别特征中的每一项进行稠密特征的转换最后对转换后的稠密特征向量进行拼接然后按项求均值或最大值或最小值等整个过程可以用如图 2 表示 ▲ 图2. 常见多值类别特征处理方法
可以看出这样对多值类别特征进行处理之后可以把每个多值类别特征转换在同一维度空间中这样输入到神经网络中不用为了保持输入维度一致而进行padding使输入变稀疏也方便和其他特征做交叉特征。
▌加权法
仔细一想如果对多值类型特征直接求均值似乎不是很符合常理毕竟用户对每个感兴趣话题的喜爱程度不一样这就有了权重的引入而不是简单粗暴的求均值了具体引入权重的做法如图 3 示意图 ▲ 图3. 多值类别特征加权处理方法
那么权重是怎样得来的总结以下
❶ 通过数据挖掘得到多值特征中每个值的权重
例如用户感兴趣话题这个多值类型特征的权重可以这样获得用户在相关话题问题下回答问题的个数或相关话题回答点赞的次数也就是回答相关话题问题的个数越多表明越对该话题越感兴趣权重越大点赞相关话题回答的次数越多表明越对该话题越感兴趣权重越大。
❷ 通过神经网络自动学习多值特征中每个值的权重
1.借鉴论文FiBiNET[1]中把SE模块用在学习不同embedding vector权重的思想。主要过程如图 4 ▲ 图4. 利用SENet加权思想
先对得到的多维稠密特征横向求均值这部分在SE[2]模块中称作squeeze也就是压缩的意思然后再用两个全连接层进行全连接操作这部分在SE模块中称作excitation也就是激励提取的意思最终的输出也就是学习得到的多值类别特征中每个值对应的权重。由于是针对多值类别特征的处理因此这里在编程实现的时候需要按照max length 进行padding之后再进行one hot编码等后续操作。
2.借鉴论文AutoInt[3]中学习transformer[4]注意力机制的思想来学习得到embedding vector em在Value空间上的权重信息。具体操作如图 5 所示M是多值类别特征值的个数 ▲ 图5. 利用transformer attention思想 总的来说通过神经网络学习得到权重相比较通过数据挖掘得到权重来说计算复杂计算量大因此在选择时需要权衡一下。
欢迎关注公众号数据运营入表资产化服务
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/90112.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!