深度度量学习提升近邻搜索可靠性

通过深度度量学习实现更可靠的近邻搜索

许多机器学习应用涉及将数据嵌入到一个表示空间中,其中嵌入之间的几何关系承载着语义内容。执行一项有用任务通常涉及检索该空间中一个嵌入的邻近邻居:例如,查询嵌入附近的答案嵌入、文本描述嵌入附近的图像嵌入、一种语言中的文本嵌入在另一种语言中的文本嵌入附近,等等。

确保检索到的示例准确表示预期语义的一种流行方法是深度度量学习,它通常用于训练像视觉语言模型CLIP这样的对比学习模型。在深度度量学习中,机器学习模型学习根据指定的度量来构建表示空间,以便最大化不同训练样本之间的区分度,同时促进相似样本之间的接近性。

然而,深度度量学习的一个缺点是,同一类别的嵌入之间的距离和不同类别的嵌入之间的距离都可能变化。这在许多现实世界的应用中是一个问题,因为人们希望有一个单一的距离阈值来满足特定的误报率和漏报率要求。如果类间和类内距离都发生变化,那么没有单一阈值在所有情况下都是最优的。这可能会在大规模应用中造成重大的部署复杂性,因为个别用户可能需要不同的阈值设置。

在今年举办的国际学习表示会议上,本人与同事提出了一种方法,使DML嵌入之间的距离更加一致,从而使得单一阈值能够跨类别产生公平比例的相关结果。

首先,我们提出了一种新的评估指标,用于衡量DML模型的阈值一致性,称为操作点不一致性分数,我们用它来证明优化模型准确性并不能优化阈值一致性。然后,我们提出了一个新的损失项,可以添加到任何损失函数和骨干架构中用于训练DML模型,该损失项对难正例(同类)和难负例(异类)嵌入之间的距离进行正则化,以使距离阈值更加一致。这有助于确保即使在客户查询数据存在显著差异的情况下,也能实现跨客户的一致准确性。

为了测试我们的方法,我们使用了四个基准图像检索数据集,对每个数据集训练了八个网络:其中四个是残差网络,使用两种不同的损失函数训练,每种都包含和不包含我们添加的项;另外四个是视觉变换器网络,同样使用两种最先进的DML损失函数训练,包含和不包含我们添加的项。

在由此产生的16次比较中,加入我们的损失项显著提高了所有实验中的阈值一致性,将OPIS不一致性分数降低了多达77.3%。我们提出的损失的整合还在16次比较中的14次中提高了准确性,最大的改进幅度为3.6%,最大的减少幅度为0.2%。

测量一致性
DML模型通常使用对比学习进行训练,其中模型接收成对的输入,这些输入要么属于同一类别,要么属于不同类别。在训练过程中,模型学习一种嵌入方案,将不同类别的数据彼此推开,并将同一类别的数据拉近。

随着类别之间的分离度增加,以及类别内的分离度减小,您可能期望每个类别的嵌入变得高度紧凑,从而导致跨类别的距离高度一致。但我们证明情况并非如此,即使对于具有非常高准确性的模型也是如此。

我们的评估指标OPIS依赖于一个效用分数,用于衡量模型在不同阈值下的准确性。我们使用标准的F1分数,该分数同时考虑了误报率和漏报率,可以添加一个加权项来强调其中一个比率。

然后我们定义一个阈值范围,称为校准范围,这通常基于某种方式的目标性能度量。例如,可以设置边界以限制误报率或漏报率。接着,我们计算给定阈值选择的效用分数与完整阈值范围内的平均效用分数之间的平均差异。正如效用与阈值距离的图表所示,对于同一数据集中的不同数据类别,效用-阈值曲线可能存在显著差异。

为了衡量性能和阈值一致性之间的关系,我们使用一系列不同的损失函数和批大小在同一数据集上训练了一系列模型。我们发现,在较低准确性的模型中,准确性和阈值一致性确实存在相关性。但超过一个拐点后,性能的提升是以阈值一致性下降为代价的。

更好的阈值一致性
为了提高阈值一致性,我们为DML训练引入了一种新的正则化损失,称为阈值一致性边界损失。TCM有两个参数。第一个是用于挖掘难正例数据对的正边界,其中“难”表示属于同一类别但余弦相似度小的数据项。第二个是用于挖掘难负例数据对的负边界,其中“难”表示属于不同类别但余弦相似度高的数据点。

在挖掘出这些难样本对之后,该损失项会根据测量距离与难样本对专属参数之间的差异施加惩罚。与校准范围类似,这些值可以设计为强制误报率或漏报率的边界——尽管,由于训练集和测试集之间的分布漂移,我们确实建议根据数据进行调整。

换句话说,我们的TCM损失项充当“本地检查员”,通过有选择地调整难样本,防止类别边界附近出现过度分离或过度紧凑。如下图所示,比较了使用我们的损失函数训练的模型与不使用它的模型之间的效用-阈值曲线,我们的正则化项提高了数据类别之间阈值距离的一致性。

以下是我们使用两个模型、每个模型使用两种损失函数的两个版本在四个基准数据集上的实验结果:

我们还使用手写数字的MNIST数据集进行了一个简单的实验,以可视化我们提出的TCM正则化的效果,任务是学习将相同数字的示例分组在一起。添加我们的损失项使得类别聚类更加紧凑,聚类之间的分离更加清晰。

我们添加的TCM损失项可能不会在每种情况下都带来显著的改进。但由于它可以与任何模型选择和任何损失函数选择一起使用,且没有增加额外的计算成本,因此值得尝试的情况很少见。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1134809.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

手写体识别突破:CRNN模型在签名验证中的应用

手写体识别突破:CRNN模型在签名验证中的应用 📖 项目简介 在数字身份认证、金融交易和法律文书处理等场景中,手写签名验证是确保真实性和防伪的关键环节。传统方法依赖专家人工比对或基于几何特征的模板匹配,效率低且难以应对伪造…

高效微调Llama-Factory:云端GPU的最佳实践

高效微调Llama-Factory:云端GPU的最佳实践 作为一名经常需要微调大模型的研究员,我深知本地计算资源不足的痛苦。当面对大型数据集和多个模型比较时,训练速度慢得像蜗牛爬行。好在Llama-Factory这个强大的微调框架,配合云端GPU环境…

Sambert-Hifigan镜像使用指南:WebUI操作细节全解析

Sambert-Hifigan镜像使用指南:WebUI操作细节全解析 📌 从零开始:Sambert-Hifigan中文多情感语音合成实战教程 学习目标 本文将带你全面掌握 Sambert-Hifigan 中文多情感语音合成镜像 的使用方法,涵盖 WebUI 操作全流程、API 调用方…

基于单片机的红绿灯智能控制系统设计

1 本设计的中心要点 上文一直提到设计智能交通的主要目的,也是该设计的中心要点,就是在保障正常的交通通行秩序的情况下,尽可能提高通行效率,减少道路的拥堵情况,以及减少人工的干预。其中最大的困难就是现实道路的复杂…

1小时搭建你的第一个GAN原型项目

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个极简GAN原型模板,包含:1)预训练的基础GAN模型;2)简单的参数调整界面;3)实时生成预览;4)一键导出功能。要求代码…

Flask WebUI设计亮点:Sambert-Hifigan界面简洁易用,支持实时播放

Flask WebUI设计亮点:Sambert-Hifigan界面简洁易用,支持实时播放 🎯 业务场景与痛点分析 在语音合成(TTS)技术快速发展的今天,中文多情感语音合成已成为智能客服、有声读物、虚拟主播等场景的核心能力。然而…

如何验证TTS质量?Sambert-Hifigan主观听感与MOS评分测试

如何验证TTS质量?Sambert-Hifigan主观听感与MOS评分测试 📊 语音合成质量评估的挑战与必要性 随着深度学习在语音合成(Text-to-Speech, TTS)领域的广泛应用,模型生成的语音在自然度、情感表达和音质方面取得了显著进步…

工业级OCR系统:CRNN+OpenCV预处理最佳实践

工业级OCR系统:CRNNOpenCV预处理最佳实践 📖 项目背景与技术选型动因 在数字化转型加速的今天,OCR(光学字符识别) 已成为文档自动化、票据处理、智能录入等场景的核心技术。传统OCR方案在清晰打印体上表现良好&#…

从观察到实践:Llama Factory交互式学习体验

从观察到实践:Llama Factory交互式学习体验 作为一名AI课程讲师,你是否遇到过这样的困境:想要让学生通过实际操作理解大模型微调技术,但实验室的GPU设备有限,无法支持数十名学生同时实践?本文将介绍如何利用…

CRNN模型微调教程:适配特定领域文字识别

CRNN模型微调教程:适配特定领域文字识别 📖 项目简介 在现代信息处理系统中,OCR(Optical Character Recognition,光学字符识别) 技术已成为连接物理世界与数字世界的桥梁。无论是发票识别、证件扫描&…

边缘计算场景下的CRNN:低功耗OCR解决方案

边缘计算场景下的CRNN:低功耗OCR解决方案 📖 技术背景与行业痛点 在智能制造、智慧物流、移动巡检等边缘计算场景中,实时文字识别(OCR) 正成为关键的感知能力。传统OCR系统多依赖高性能GPU服务器和云端推理&#xff0c…

Sambert-Hifigan定制训练:使用自有数据集微调情感表达能力

Sambert-Hifigan定制训练:使用自有数据集微调情感表达能力 📌 引言:中文多情感语音合成的现实需求 随着智能客服、虚拟主播、有声阅读等应用场景的普及,传统“机械化”语音合成已无法满足用户对自然度与情感表现力的高要求。尤其…

全网最全专科生必备AI论文写作软件TOP9测评

全网最全专科生必备AI论文写作软件TOP9测评 一、不同维度核心推荐:9款AI工具各有所长 对于专科生而言,论文写作是一个从选题到成文的系统性工程,涉及开题报告、初稿撰写、查重降重、格式排版等多个环节。每款AI工具在这些环节中都有各自擅长的…

AI帮你选手机:自动生成苹果机型对比报告

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个能够自动生成苹果手机对比报告的应用。用户输入想要对比的iPhone型号(如iPhone 13 vs iPhone 14),系统自动从官方数据源抓取关键参数&a…

缓冲区溢出漏洞:小白也能懂的入门指南

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个缓冲区溢出教学工具,专为编程新手设计。工具应包含以下功能:1. 用可视化方式展示缓冲区溢出的原理(如栈结构、内存布局)&am…

中文多情感TTS性能评测:响应速度与显存占用全解析

中文多情感TTS性能评测:响应速度与显存占用全解析 📌 引言:为何需要中文多情感语音合成? 随着智能客服、有声阅读、虚拟主播等应用场景的爆发式增长,传统“机械朗读”式的语音合成已无法满足用户对自然度和情感表达的…

STRING.JOIN vs 传统拼接:性能对比实测

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 编写一个Python性能测试脚本,比较STRING.JOIN和传统运算符在拼接10000个字符串时的性能差异。要求:1. 生成10000个随机字符串;2. 分别用两种方法…

AI如何自动化Windows安装清理流程

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个基于AI的Windows安装清理工具,能够自动扫描系统盘中的安装残留文件,包括临时文件、注册表残留和未使用的驱动程序。工具应具备智能识别功能&#x…

LLaMA-Factory微调全解析:云端GPU镜像的深度应用

LLaMA-Factory微调全解析:云端GPU镜像的深度应用 作为一名AI工程师,你是否曾被大模型微调中的复杂配置和显存管理问题困扰?LLaMA-Factory作为当前热门的微调框架,虽然功能强大,但环境搭建和资源调配往往让新手望而却步…

OCR结果结构化:从CRNN输出到数据库记录

OCR结果结构化:从CRNN输出到数据库记录 📖 项目简介 在数字化转型加速的今天,光学字符识别(OCR)技术已成为连接物理文档与数字系统的关键桥梁。无论是发票录入、合同归档,还是智能表单填写,OCR都…