【深度学习】多源物料融合算法(一):量纲对齐常见方法

目录

一、引言

二、量纲对齐常见方法

2.1 Z-score标准化+Sigmoid归一化

2.2 Min-Max 归一化

2.3 Rank Transformation

2.4  Log Transformation

2.5 Robust Scaling 

3、总结


一、引言

类似抖音、快手、小红书等产品的信息流推荐业务,主要通过信息流广告、信息流直播电商等获得经济收益,对于流量最大的核心推荐系统,或多或少都要承担商业指标,承接特定物料的曝光需求。但是广告、直播电商或其他业务物料,会根据自己的需求进行排序,由于不是一套模型,业务场景数据也不一样,插入物料的量纲与主推荐量纲必定不相同,随之但是的就是无法比较问题,如何将不同的量纲对齐且可比呢,今天介绍常见的几种方法。

二、量纲对齐常见方法

2.1 Z-score标准化+Sigmoid归一化

Z-score标准化将数据转换为均值为0、标准差为1的分布。公式如下:

z=\frac{x-\mu }{\sigma }

其中:

  • x是原始数据点
  •  \mu是序列的均值
  • \sigma是序列的标准差

Sigmoid将均值为0、标准差为1的分布转化为值域为0-1的分布。公式为 

f(x)=\frac{1}{1+e^{-x}}

Z-score+Sigmoid序列合并计算步骤

  1.  对每个序列分别计算均值和标准差。
  2. 对每个数据点应用Z-score公式进行标准化。
  3. 对标准化后的序列采用Simgoid归一化到0-1后,进行比较。 

2.2 Min-Max 归一化

Min-Max 归一化将数据线性地转换到一个固定的区间(通常是 [0, 1])。公式如下:

x'=\frac{x-min}{max-min}

其中:

  • x 是原始数据点
  • min是序列的最小值
  • max是序列的最大值

序列合并计算步骤:

  1.  对每个序列分别计算最小值和最大值。
  2. 对每个数据点应用上述公式进行归一化。
  3. 合并归一化后的序列。  

2.3 Rank Transformation

Rank Transformation 将数据转换为它们的秩次。公式如下:

x'=rank(x)

序列合并计算步骤:

  1.  对每个序列分别计算每个数据点的秩次。
  2. 合并秩次后的序列。 

2.4  Log Transformation

如果数据分布偏斜,可以使用对数变换来压缩数据范围。公式如下:

x'=log(x+1)

 序列合并计算步骤:

  1.  对每个序列分别应用对数变换。
  2. 合并变换后的序列。 

2.5 Robust Scaling 

 Robust Scaling 使用中位数和四分位距(IQR)进行标准化,适用于存在异常值的数据。公式如下:

x'=\frac{x-mediam}{IQR} 

  • mediam是序列的中位数
  • IQR是序列的四分位距(即第75百分位数减去第25百分位数) 

 序列合并计算步骤:

  1.    对每个序列分别计算中位数和IQR。
  2.  对每个数据点应用上述公式进行标准化。
  3.  合并标准化后的序列。 ​​​​​​​

3、总结

本文初步介绍了多种将不同量纲的多源物料转换为同一量纲的方法,主要目标就是让不同业务场景的推荐排序结果可以比较,通过公式化的序列转换,快速达到可比的预期,计算效率更高。在实践中,Z-score+Sigmoid方法更为实用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/73471.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

deepseek为什么要开源

一、生态位的抢占与锁定:以 JDK 版本为例​ 在软件开发的世界里,生态位的抢占和先入为主的效应十分显著。就拿 Java 开发中的 JDK 版本来说,目前大多数开发者仍在广泛使用 JDK8。尽管 JDK17 和 JDK21 已经推出,且具备更多先进特性…

【AI】内容生成式AI(AIGC)的深度分析与扩展

引言 随着人工智能(AI)技术的迅速发展,AI生成内容(AIGC)已经在多个领域表现出巨大潜力,改变了内容创作的方式。这篇文章将详细介绍AI生成内容的技术原理、应用领域、优缺点、未来趋势以及相关伦理问题&…

用C++新建快捷方式

1.创建文件 新建一个文件Ink.cpp,系统会自动生成对应的EXE文件 2.编写代码 #include<stdlib.h> int main(){ system("powershell -command \"$WshShellNew-Object -comObject WScript.Shell; $Shortcut$WshShell.CreateShortcut(\%UserProfile%\\Desktop\\1.…

前端Html5 Canvas面试题及参考答案

目录 Canvas 元素的默认尺寸是多少?如何正确设置其宽高以避免图像拉伸? 如何获取 Canvas 的 2D 上下文对象?3D 上下文支持哪些技术? canvas.width 与 canvas.style.width 的区别是什么? Canvas 支持的图像格式有哪些?如何将 Canvas 转换为 Base64 图片? Canvas 中如…

基于Python的天气预报数据可视化分析系统-Flask+html

开发语言&#xff1a;Python框架&#xff1a;flaskPython版本&#xff1a;python3.8数据库&#xff1a;mysql 5.7数据库工具&#xff1a;Navicat11开发软件&#xff1a;PyCharm 系统展示 系统登录 可视化界面 天气地图 天气分析 历史天气 用户管理 摘要 本文介绍了基于大数据…

基于Uniapp开发tab选项卡/标签栏前端组件

在开发一些业务场景时候&#xff0c;可能需要切换标签栏来展示不同的信息列表。 为此开发了一个Uniapp组件&#xff08;myTab&#xff09;&#xff0c;下面为组件的展示效果&#xff1a; 案例代码&#xff1a; <template><view class"content"><myt…

练习题:87

目录 Python题目 题目 题目分析 代码实现 代码解释 列表推导式部分&#xff1a; 变量赋值和输出&#xff1a; 运行思路 结束语 Python题目 题目 使用列表推导式生成一个包含 1 到 100 中所有偶数的列表。 题目分析 本题要求使用 Python 的列表推导式生成一个包含 …

【DevOps】 基于数据驱动的Azure DevOps案例实现

推荐超级课程: 本地离线DeepSeek AI方案部署实战教程【完全版】Docker快速入门到精通Kubernetes入门到大师通关课AWS云服务快速入门实战目录 **客户场景:****解决方案:****架构:****架构细节:****结论**客户场景: 为大量客户提供基于Azure云的成果物重复部署服务。这可能…

文本组件+Image组件+图集

Canvas部分知识补充 元素渲染顺序 以Hierarchy参考 下方物体在上方物体前显示 子物体在父物体前显示 下方物体永远在前显示&#xff0c;无论上方的层次结构 资源导入 绝对路径&#xff1a;C:\Windows\Fonts下的许多字体可以用做UIText的字体资源 图片导入&#xff1a; 1.图…

【量化策略】均值回归策略

【量化策略】均值回归策略 &#x1f680;量化软件开通 &#x1f680;量化实战教程 技术背景与应用场景 在金融市场中&#xff0c;价格波动往往呈现出一定的规律性。均值回归策略正是基于这一观察&#xff0c;认为资产价格会围绕其历史平均水平上下波动。当价格偏离均值较远…

C++初阶——类和对象(二)

C初阶——类和对象&#xff08;二&#xff09; 本期内容书接上回&#xff0c;继续讨论类和对象相关内容。类和对象属于C初阶部分&#xff0c;主要反映了面向对象编程的三大基本特点之一——封装&#xff0c;在C的学习中占有举足轻重的地位&#xff01; 一、类对象模型 1.如何…

3-002: MySQL 中使用索引一定有效吗?如何排查索引效果?

1. 索引失效的常见原因 虽然索引可以加速查询&#xff0c;但在某些情况下&#xff0c;MySQL 可能不会使用索引&#xff0c;甚至使用索引反而更慢。 以下是一些常见导致索引失效的原因&#xff1a; ① 查询条件使用了 ! 或 <> 原因&#xff1a;索引通常用于范围或等值查…

LVGL移植到6818开发板

一、移植步骤 1.lv_config.h 配置文件启动 framebuffer 2、lv_config.h 配置文件关闭SDL 2.修改main.c 去掉SDL输入设备 3.修改Makefile 文件启动交叉编译 去掉警告参数 去掉SDL库 4.交叉编译代码 make clean #清空 ⭐ 必须要清空一次再编译&#xff01; 因为修改了 lv_con…

linux系统命令——权限

一、有哪些权限 读&#xff08;r&#xff09;——对应数字4 写&#xff08;w&#xff09;——对应数字2 执行&#xff08;x&#xff09;——对应数字1 二、权限及数字的对应 4对应r-- 2对应-w- 1对应--x 5对应r-x 6对应rw- 7对应rwx 三、文件的基本属性 如图&#…

Android Dagger2 框架辅助工具模块深度剖析(六)

一、引言 在 Android 开发领域&#xff0c;依赖注入&#xff08;Dependency Injection&#xff0c;简称 DI&#xff09;作为一种至关重要的设计模式&#xff0c;能显著降低代码间的耦合度&#xff0c;提升代码的可测试性与可维护性。Dagger2 作为一款强大的依赖注入框架&#…

Django项目之订单管理part3

一.前言 前面两章已经把登录给做完了&#xff0c;这一章节要说的是登录的校验和登录以后的菜单展示&#xff0c;内容还是很多的。 二.菜单和权限 2.1 是否登录 当我们进入其他的页面&#xff0c;我们首先要判断是否登录&#xff0c;这个时候我们就要借助中间件来做session和…

多线程到底重不重要?

我们先说一下为什么要讲多线程和高并发&#xff1f; 原因是&#xff0c;你想拿到一个更高的薪水&#xff0c;在面试的时候呈现出了两个方向的现象&#xff1a; 第一个是上天 项目经验高并发 缓存 大流量 大数据量的架构设计 第二个是入地 各种基础算法&#xff0c;各种基础…

AI大模型测试用例生成平台

AI测试用例生成平台 项目背景技术栈业务描述项目展示项目重难点 项目背景 针对传统接口测试用例设计高度依赖人工经验、重复工作量大、覆盖场景有限等行业痛点&#xff0c;基于大语言模型技术实现接口测试用例智能生成系统。 技术栈 LangChain框架GLM-4模型Prompt Engineeri…

【论文笔记】Contrastive Learning for Compact Single Image Dehazing(AECR-Net)

文章目录 问题创新网络主要贡献Autoencoder-like Dehazing NetworkAdaptive Mixup for Feature PreservingDynamic Feature Enhancement1. 可变形卷积的使用2. 扩展感受野3. 减少网格伪影4. 融合空间结构信息 Contrastive Regularization1. 核心思想2. 正样本对和负样本对的构建…

异步加载错误如何解决

首先是 提供两张图 如果数据过多的情况下我在所内和住家形式频繁的来回切换 导致数据展示的不一样 大家是不是有这样的问题 这个是导致了数据展示有问题的情况 住家的情况本来是没有几层的 下面我帮大家解决一下 // 防止异步延迟 const Noop () > { } const lhl (resDa…