[PaperReading] SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model

news/2025/10/18 18:24:08/文章来源:https://www.cnblogs.com/fariver/p/19148873

目录
  • SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model
  • TL;DR
  • Data
    • Recommendation-aware Data Construction
    • Dynamic Hard Negative Mining
      • Q:动态难负样本挖掘是什么原理?\(\lambda^*\)是如何动态确定的?
      • Q:\(H\)\(N\)这两个子集分别是如何确定的?
    • 动态多源数据平衡
  • Architecture
    • Text Tokenizer
    • Vision Encoding
    • Audio Encoding
    • Fusion
  • 训练策略
    • 策略
    • Loss
      • NCE Loss
      • CoSENT Loss
      • mICL Loss
      • IF Loss
    • Stochastic Specialization Training
    • Collaboration-aware Recommendation Enhancement Training
  • Experiment
  • 总结与思考
  • 相关链接
  • Related works中值得深挖的工作
  • 资料查询

SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model

link
时间:2025.10
单位:ByteDance SAIL
相关领域:多模态特征学习

TL;DR

SAIL-Embedding:
1.使多模态检索与分类支持任意模态;
2.引入动态难负样本挖掘与多数据源动态采样提升训练稳定性与规模;
同时,多阶段训练从多方面提升了多模态表征学习的有效性:
1.context-aware训练 -> 增强在各下游任务的动态适应性
2.collaboration-aware推荐训练 -> 通过sequence-to-item与ID-to-item embedding的蒸馏策略,提升推荐场景下多模态表征能力

SAIL-Embedding的功能
image

Data

SAIL-Embedding支持更多模态输入
image

Recommendation-aware Data Construction

  • Item-to-Item检索:item=短视频,包括里面的多模态信息,对应应该被检索到的item有多种需求:用户行为、video summaries、semantics ID以及特定商业应用;
  • Query-to-Item检索:通常,Query=text,target指得用户最有可能点击的视频。通常使用基于规则或者基于LLM来计算query与target之间的相似性;
  • Classification:query=item, target指得是多级tag,我们将分类数据集转为item-label对,tag有多种维度,比如 用户动机、图文内容分类。

Dynamic Hard Negative Mining

Q:动态难负样本挖掘是什么原理?\(\lambda^*\)是如何动态确定的?

针对于所有[0, 1]之间的\(\lambda\),针所有样本对计算F1,并且F1的求和 (因为每个样本对是正的还是负的其实已知),找一个最大的F1对应的\(\lambda\)就是此时的动态阈值\(\lambda^*\)
image

Q:\(H\)\(N\)这两个子集分别是如何确定的?

\(s_{ij}\)是低于\(\lambda^*\),但与q有最高相似度的样本。
image

动态多源数据平衡

image

之前方法数据采样都是手工设定

动态多源采样处理方法:

  • 从训练集摘出验证集并构造下游任务;
  • 用当前阶段emb模型分别提取训练集与验证集特征,并聚类出中心特征;
  • 计算train与val数据集间的相似度矩阵,并通过Sinkhorn算法将相似矩阵压缩为标量分数;
  • 高相似度获得较大采样权重,低相似度获得较低采样权重;

Architecture

整体架构图
image
Instruction模板
image

Text Tokenizer

Q:Text Tokenizer是什么算法?输入输出是什么?

  • 输入:
  1. text Modality: titles, tags, author labels, OCR texts, and ASR texts.
  2. Instruction: 像是整体格式的控制模板,包括:System Prompt、用户信息、助手标识
  • 输出:​​token ID序列、位置编码、注意力编码(标识token的效性)

Vision Encoding

Vision Encoder:将分辨率resize到固定,对于高分辨率或者视频数据而言tokens数量庞大
Visual Perceiver: 将visual tokens外加16个可学习的Query tokens,通过该子网络后提取出这个16浓缩后的tokens,从而降低下降融合时的tokens计算量,所以这里Query tokens与搜索领域所说的用户query不是一会事。

Audio Encoding

使用CLAP模型,比Whisper速度更快,模型结构与预训练方法上比较像CLIP。
image

Fusion

简单而言:多模态token concat -> attention聚合 -> Tanh非线性激活 -> MeanPool => 融合后的多模态token
这种Fusion方式与VLM2Vec中取最后一层最后一个token的方式不一致,哪种方法更好呢?
image

训练策略

image

策略

大规模数据预训练 => 下游任务Finetune => 构造难负样本集进一步Refine

Loss

image

NCE Loss

使用的MRL NCE Loss,MRL全称为Matryoshka Representation Learning,该操作会将1536维embedding切出多个子vector例如128d与768d,这些向量同时做NCE Loss。
image

CoSENT Loss

参考苏神的博客。为了解决直接优化绝对余弦相似度(如设定正样本对相似度为1,负样本对为0)所带来的问题。其核心创新在于将学习目标从​​拟合绝对分数​​转变为​​学习相对顺序​​。参考下述公式,关键在于求和条件 sim(i,j)>sim(k,l)。它并不关心sim(i, j)和sim(k, l)的具体数值是多少,只关心​​它们之间的大小关系​​。
image
Q:在计算Loss时,我怎么知道sim(i, j)与sim(k, l)之间的相似度关系呢?

  • 二元标签:类似NCE那样,正样本对的相似度必然大于负样本对相似度;
  • 多分类标签:对于NLI(自然语言推理)数据,标签是“蕴含”、“中立”、“矛盾”三类。可建立一个顺序关系:
    sim(蕴含)>sim(中立)>sim(矛盾)
  • 连续分数: 某些数据集包含相似度真值,例如 STS-B数据集。

mICL Loss

mICL全称为multimodal In-Context Learning,即为每种模态单独计算NCE Loss。
image

IF Loss

全称为Late Fusion,通过门控融合机制保护视觉信息的完整性,防止在多模态融合过程中视觉语义被文本信息主导。
image

Stochastic Specialization Training

故名思义,随机特定数据集训练。之前工作都是将多个数据源混合少量样本训练,这么做增加了梯度估计的方差,使训练不稳定。本工作改为每次随机选择一个数据集,并仅从该数据集中采样构建一个完整的训练批次,提升训练效率和模型在各数据集上的专业化性能。

Collaboration-aware Recommendation Enhancement Training

Sequence-to-Item Distillation
在用户历史1k次搜索视频序列中,过滤出它主动交互的行为,将最近一次的序列中item设计为目标视频,由些可以构造一个蒸馏训练方法,参考Figure7 a。
ID-to-Item Distillation
image
参考Figure7b
Q:图中的Query Item与Target Item分别指得是什么?
​​- Query Item​​的embedding:指通过​​SAIL-Embedding多模态模型​​计算得到的表征。它融合了物品的视觉、文本、音频等内容信息,代表的是该物品的​​内容语义特征​​。
​​- Target Item​​的embedding:指同一Item在​​现有推荐系统​​中已有的、基于协同过滤(如用户行为序列)学习到的ID表征。它代表的是该物品的​​用户协作特征​​。
Q:图中下方ID1/ID2/ID3指得是什么?
该Item的ID(如视频ID、作者ID),从推荐系统的嵌入表中查找出对应的​​ID1, ID2, ID3等embedding​​,它们通过Feature Projection映射成​​Target Item的协作表征​​。典型的ID有以下可能的类别:

  • 物品ID​​:物品的唯一标识符,其嵌入反映了该物品的整体受欢迎程度和属性。
  • 作者ID​​:内容创作者的身份标识,其嵌入反映了该作者的风格、受众群体和影响力。
  • 类别/标签ID​​:物品所属的分类或主题标签,其嵌入反映了该类别的用户偏好分布。
  • 其他实体ID​​:如品牌ID、音乐ID、地理位置ID等,取决于具体的业务场景。

Experiment

image
image
Ablation Study
image
Q:i2i, q2i这两个任务为什么要分开评测(不都是多模态检索任务吗)?
​​表征需求不同​​:i2i(item2item)需要强大的​​跨模态融合能力​​,q2i(query2item)需要优秀的​​文本-多模态对齐能力​

总结与思考

很详实的工作,共20页的内容,分享了很多实战的干货,实验结果也很充分。

相关链接

翻译

资料查询

折叠Title FromChatGPT(提示词:XXX)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/939719.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

How to Practice English Daily for 30 mins

How to Practice English Daily for 30 minsWelcome to Bookish English 2. Tell me honestly, how many times have you said, "Ill start learning English tomorrow." But tomorrow never comes, right?…

Flash 8.0下载安装

Flash 8.0下载安装https://www.yutu.cn/softhtml/softsetup_136.html

英伟达个人AI超算Spark技术解析

英伟达DGX Spark个人AI超级计算机将于10月15日上市,搭载GB10 Grace Blackwell超级芯片,具备每秒千万亿次计算能力,支持高达2000亿参数AI模型,为研究人员提供桌面级AI训练解决方案。英伟达“个人AI超级计算机”将于…

[buuctf]jarvisoj_level3_x64

首先查看一下文件的保护措施在用ida打开看一下这里很明显在read函数进行输入的时候存在栈溢出,然后观察一下文件,没有后门函数,也没有可以用的binsh,那就可以向libc泄露这方面去想了 由于这里是64位的程序,所以在调…

SpringBoot系列十三:SpringBoot面试常见问题

你觉得 SpringBoot 最大的优势是什么呢? 答:SpringBoot 的最大的优势是“约定优于配置“。“约定优于配置“是一种软件设计范式,开发人员按照约定的方式来进行编程,可以减少软件开发人员需做决定的数量,获得简单的…

人生四大支柱 - 健康,金钱,工作,关系

人生四大支柱 如果把人生看作是一座大厦,想要这座大厦扛过人生一路的风风雨雨,让他能安稳长久,必须有坚实的支柱支撑大厦。 细数下来,最主要的有四根柱子:健康、金钱、工作、关系。它们相互依存,缺了哪一根,生活…

【Docker项目实战】使用Docker部署IT运维管理平台CAT - 指南

【Docker项目实战】使用Docker部署IT运维管理平台CAT - 指南2025-10-18 17:52 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !importa…

2025 夹丝玻璃源头厂家最新推荐排行榜:解析防火 / 艺术 / 酒店等多场景厂商优势,助力精准选型

引言随着夹丝玻璃在防火防爆、艺术装饰、高端家居等场景的应用愈发广泛,市场需求持续攀升,但行业乱象也随之凸显。部分厂商缺乏核心技术,产品强度、透光率等关键指标未达 GB/T 18091 标准,金属丝分布不均、粘结强度…

2025 中空板源头厂家最新推荐排行榜揭晓:覆盖全产业链,老牌与新锐共筑品质标杆

引言在物流包装、广告展示、建筑防护等多领域需求的驱动下,中空板市场规模持续扩张,源头厂家数量随之激增。然而,行业内仍存在产品性能参差、定制能力不足、售后保障缺失等问题,部分企业因选错供应商面临交货延迟、…

2025 中空板源头厂家最新推荐排行榜揭晓:覆盖全产业链,老牌与新锐共筑品质标杆

引言在物流包装、广告展示、建筑防护等多领域需求的驱动下,中空板市场规模持续扩张,源头厂家数量随之激增。然而,行业内仍存在产品性能参差、定制能力不足、售后保障缺失等问题,部分企业因选错供应商面临交货延迟、…

adb安装教程(附adb命令大全详解)adb环境部署教程

adb安装教程(附adb命令大全详解)adb环境部署教程pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas"…

2025 年感温电缆厂家最新推荐榜单:覆盖线型 / 缆式 / 可恢复 / 消防等多类型产品,全方位解析头部企业核心优势

在工业生产、城市基建等领域,火灾安全防护是保障生命财产安全的关键环节,而感温电缆作为火灾探测的核心设备,其品质与性能直接决定了火灾预警的及时性与准确性。当前感温电缆市场呈现品牌繁杂、产品质量差异显著的态…

2025 年盖板源头厂家最新推荐榜单:电力 / 隧道 / 电缆沟等多场景适用品牌优选,解析原材料采购与成本控制要点

引言当前盖板市场需求持续攀升,市政工程、电厂、高铁隧道等多场景对盖板的质量、适配性及成本性价比要求愈发严苛。但行业内部分厂家存在原材料把控不严、成本管控失衡、定制服务滞后等问题,导致采购方难以精准筛选可…

win

ed2k://|file|cn_windows_10_business_editions_version_1909_x64_dvd_0ca83907.iso|5275090944|9BCD5FA6C8009E4D0260E4B23008BD47|/

2025 年真空炉制造厂家最新推荐排行榜:涵盖高温烧结真空炉 / 真空退火炉 / 智能铍铜真空炉,助力企业精准选型

当前工业 4.0 持续推进,半导体、5G 通信、航空航天等尖端产业对真空炉的需求日益攀升,同时对设备智能化、节能性、温控精度的要求也不断提高。然而,真空炉市场品牌繁杂,产品质量参差不齐,部分设备存在升温慢、能耗…

2025 年最新推荐排水沟厂家排行榜:聚焦树脂 / 线性 / 树脂混凝土 / 成品 / U 型排水沟优质企业

在市政工程、电厂建设、道路施工等基础设施项目中,排水沟质量直接关乎工程稳定性与使用寿命。当前市场上排水沟产品质量参差不齐,部分产品存在强度不足、易腐蚀、安装后异响移位等问题,增加后期维护成本且埋下安全隐…

将 XMind 测试用例转换为 CSV 文件导入测试管理平台

将 XMind 测试用例转换为 CSV 文件导入测试管理平台实用教程及脚本在日常的软件测试工作中,我们常常使用 XMind 来整理测试用例。XMind 的可视化结构让用例层次清晰、逻辑直观,但当我们需要将这些用例导入到测试管理…

互评-OO之接口-DAO模式代码阅读及应用

集美大学课程实验报告-互评-OO之接口-DAO模式代码阅读及应用项目名称 内容课程名称 Java班级 网安2413指导教师 郑如滨学生姓名 林沁茹学号 202421336067实验项目名称 互评-OO之接口-DAO模式代码阅读及应用上机实践日期…

【为美好CTF献上祝福】unity逆向

咕咕,有点懒,以后再更 当你正在做一道逆向题,下载文件后发现得到一个unity文件,此时你应该: 第一步:判断

今日学习笔记

AI 学习与人脑类比总结文档 一、AI 与人类学习的本质 • 共同点:无论是人类大脑还是人工神经网络,本质上都是在寻找并逼近输入与输出之间的复杂映射函数。 • 人类学习:通过感官获取信息 → 在大脑形成突触连接 → …