【程序员必看】voyage-context-3向量模型发布:RAG检索效率提升14%,存储成本仅0.5%,香不香?

最近看到一个有意思的工作,原文来自:

voyage-context-3:聚焦分段细节,融入全局文档上下文

**概要:**Voyage AI 推出了voyage-context-3,这是一款情境化分段向量模型。它能为文本分段(chunk)生成向量,在无需手动添加元数据或上下文的情况下,自动捕获完整的文档上下文,从而显著提升检索准确性。与传统方法(无论是否进行增强)相比,其检索精度更高。同时,voyage-context-3更简单、更快、成本效益更优,可直接替代标准向量模型,无需改变现有工作流程,并且降低了对分段策略的敏感性。

在分段级别和文档级别的检索任务中,voyage-context-3的表现均优于:

  • OpenAI-v3-large 分别高出 14.24%和 12.56%。
  • Cohere-v4 分别高出 7.89% 和 5.64%。
  • Jina-v3 延迟分段(late chunking)分别高出 23.66% 和 6.76%。
  • 情境化检索(contextual retrieval)分别高出 20.54% 和 2.40%。

voyage-context-3还支持多维度和多种量化选项,这得益于 Matryoshka 学习(Matryoshka learning)和量化感知训练(quantization-aware training),在保持检索精度的同时,显著降低了向量数据库的存储成本。例如,voyage-context-3(二进制,512 维)在性能上超越了 OpenAI-v3-large(浮点,3072维)0.73%,同时将向量数据库存储成本降低了 99.48%——这意味着几乎相同的性能,但成本仅为 0.5%。

voyage-context-3是一款新颖的情境化分段向量模型,其分段向量(chunk embedding)不仅编码了分段自身内容,还能够捕获完整文档的上下文信息。voyage-context-3可以无缝替代现有 RAG(检索增强生成)流水线中使用的标准、上下文无关的向量模型,通过捕获相关上下文信息来提高检索质量。

与采用独立分段的上下文无关模型(例如 OpenAI-v3-large、Cohere-v4),以及通过重叠分段或附加元数据等方式为分段添加上下文的现有方法相比,voyage-context-3在简化技术栈的同时,显著提升了检索性能。

在分段级别(检索最相关的分段)和文档级别(检索包含最相关分段的文档)检索任务中,voyage-context-3平均表现均优于:

  • OpenAI-v3-large:分段级别高出 14.24%,文档级别高出 12.56%。
  • Cohere-v4:分段级别高出 7.89%,文档级别高出5.64%。
  • 情境增强方法 Jina-v3 延迟分段[^1]:分段级别高出 23.66%,文档级别高出 6.76%。 *情境化检索[^2]:分段级别高出 20.54%,文档级别高出 2.40%。
  • voyage-3-large:分段级别高出7.96%,文档级别高出 2.70%。

一、RAG 中的分段挑战

**聚焦细节与全局上下文的权衡。**在检索增强生成(RAG)系统中,将大型文档分解为更小的片段(即分段,chunks)是一个常见且往往必要的步骤。最初,分段主要是受限于模型有限的上下文窗口(尽管 Voyage 模型近期已显著扩展了这一窗口)。更重要的是,分段能使向量包含对相应文本段的精确细粒度信息,从而使搜索系统能够精准定位相关文本段。然而,这种聚焦有时会牺牲更广阔的上下文。此外,如果不进行分段,用户必须将完整的文档传递给下游 LLM,这会增加成本,因为许多 token 可能与查询无关。

例如,如果一份 50 页的法律文件被向量化为一个单一的向量,那么诸如"客户端与服务提供商基础设施之间的所有数据传输应采用 GCM 模式的 AES-256 加密"这样的详细信息,很可能在聚合中被掩盖或丢失。通过将文档分段成段落并分别向量化每个段落,生成的向量可以更好地捕获"AES-256 加密"之类的局部细节。但是,这样的段落可能不包含全局上下文——例如"客户名称"——而这对于回答"客户 VoyageAI 希望使用哪种加密方法?"这样的查询是必需的。

理想情况下,开发者期望同时拥有聚焦细节和全局上下文,且无需进行权衡。目前常用的变通方法——如分段重叠(chunk overlaps)、使用 LLM 进行上下文摘要(例如 Anthropic 的情境化检索),或元数据增强——可能会给本已复杂的 AI 应用流水线引入额外的步骤。这些步骤通常需要进一步的实验来调优,从而增加了开发时间和操作成本。

二、情境化分段向量模型介绍

Voyage AI 推出了情境化分段向量(contextualized chunk embeddings)模型,它能够同时捕获聚焦细节和全局上下文。该模型能一次性处理整个文档,并为每个分段生成独立的向量。每个向量不仅编码了其分段内的具体信息,还编码了粗粒度的文档级上下文,从而实现了更丰富、语义感知更强的检索。关键在于,神经网络能够同时"看到"所有分段,并智能地决定哪些来自其他分段的全局信息应注入到各个分段的向量中。

  1. **自动感知完整文档上下文。**情境化分段向量模型能捕获文档的完整上下文,无需用户手动或明确提供上下文信息。这与独立的片段向量相比,显著提升了检索性能,并且比其他上下文增强方法更简单、更快速、更经济。
  2. 无缝即插即用,存储成本相当。voyage-context-3可直接替代现有搜索系统、RAG 流水线和智能体系统中使用的标准、上下文无关的向量模型。它接受相同的输入分段,并生成具有相同输出维度和量化方式的向量——这些向量现已通过文档级上下文进行了丰富,从而提升了检索性能。与引入大量向量和存储成本的 ColBERT 模型不同,voyage-context-3生成的向量数量相同,且完全兼容任何现有向量数据库。
  3. **对分段策略的敏感度更低。**尽管分段策略仍然会影响 RAG 系统的行为——并且最佳方法取决于数据和下游任务——但情境化分段向量模型在经验上已证明能降低系统对这些策略的敏感度,因为模型会智能地用全局上下文补充过短的分段。

情境化分段向量模型优于手动或基于 LLM 的上下文处理方法,因为神经网络经过训练,能够从大型数据集中智能地捕获上下文,从而超越了特设方法(ad hoc effort)的局限性。voyage-context-3在训练时同时使用了文档级和分段级相关性标签,并采用了双重目标,旨在使模型在保留分段级粒度的同时,融入全局上下文。

三、评估详情

分段级别与文档级别检索。对于给定的查询,分段级别检索(chunk-level retrieval)返回最相关的分段,而文档级别检索(document-level retrieval)则返回包含这些分段的文档。下图展示了来自n个文档的分段在这两种检索级别上的表现。最相关的分段(通常称为"黄金分段")以粗体绿色显示;其对应的父文档以蓝色显示。

数据集。评估在 93 个特定领域检索数据集上进行,这些数据集涵盖了九个领域:网络评论、法律、医疗、长文档、技术文档、代码、金融、对话和多语言。具体列表可在此电子表格中查看。每个数据集包含一组查询和一组文档。每份文档由通过合理的分段策略创建的有序分段序列组成。与往常一样,每个查询都有若干相关文档,可能附带一个表示相关程度的分数,称之为文档级相关性标签,可用于评估文档级检索。此外,每个查询还包含一份最相关分段的列表及其相关性分数,这些分段通过包括 LLM 标注在内的各种方式精心整理。这些被称为分段级相关性标签,用于分段级检索评估。

评估还包含了专有的真实世界数据集,例如技术文档和包含标题元数据的文档。最后,使用与先前关于检索质量与存储成本分析相同的数据集,评估了voyage-context-3在不同向量维度和各种量化选项下的性能,采用标准单向量检索评估方法。

**模型。**评估了voyage-context-3以及几种替代模型,包括:OpenAI-v3-large(text-embedding-3-large)、Cohere-v4(embed-v4.0)、Jina-v3 延迟分段(jina-embeddings-v3)、情境化检索、voyage-3.5voyage-3-large

**指标。**对于给定的查询,根据余弦相似度检索出前 10 个文档,并报告归一化折让累积增益(NDCG@10),这是一种用于衡量检索质量的标准指标,也是召回率的一种变体。

四、结果

所有评估结果都可以在这个电子表格中找到,以下将详细分析这些数据。

**特定领域质量。**下面的柱状图显示了voyage-context-3在每个领域中,使用全精度 2048 向量时的平均检索质量。在以下分段级检索图表中,可以看到voyage-context-3在所有领域中都优于所有其他模型。如前所述,对于分段级检索,voyage-context-3平均分别优于 OpenAI-v3-large、Cohere-v4、Jina-v3 延迟分段和情境式检索 14.24%、7.89%、23.66% 和 20.54%。

voyage-context-3在文档级检索中也超越了所有其他模型,这在下面的相应图表中有所体现。平均而言,voyage-context-3在文档级检索方面分别优于 OpenAI-v3-large、Cohere-v4、Jina-v3 延迟分段和情境式检索 12.56%、5.64%、6.76% 和 2.40%。

真实世界数据集。voyage-context-3在专有的真实世界技术文档和内部数据集上表现强劲,超越了所有其他模型。以下柱状图展示了分段级检索结果。文档级检索结果可在评估电子表格中查看。

**分段敏感度。**与标准、上下文无关的向量模型相比,voyage-context-3对分段大小变化的敏感度较低,并且在分段较小时表现更强。例如,在文档级检索中,voyage-context-3的方差仅为 2.06%,而voyage-3-large的方差为 4.34%。当使用 64 token 分段时,voyage-context-3性能优于voyage-3-large6.63%。

**上下文元数据。**同时评估了当上下文元数据被前置到分段时的性能。即使将元数据前置到由voyage-3-large向量的分段中,voyage-context-3仍然能够超越它高达 5.53%,这表明voyage-context-3在无需额外工作和资源来前置元数据的情况下,实现了更好的检索性能。

Matryoshka 向量与量化。voyage-context-3支持 2048、1024、512 和 256 维的向量,这得益于 Matryoshka 学习(Matryoshka learning)[^3]。同时,它还支持多种向量量化选项——包括 32 位浮点、有符号和无符号 8 位整数以及二进制精度——并能最大限度地减少质量损失。为了进一步阐释上述图表,下图展示了文档中的单向量检索。与 OpenAI-v3-large(浮点,3072 维)相比,voyage-context-3(int8,2048 维)在检索质量提高 8.60% 的同时,将向量数据库成本降低了 83%。此外,将 OpenAI-v3-large(浮点,3072 维)与voyage-context-3(二进制,512 维)进行比较,向量数据库成本降低了 99.48%,而检索质量提高了 0.73%;这意味着几乎相同的检索性能,但成本仅为 0.5%。

五、如何使用 voyage-context-3

voyage-context-3现已推出免费 2 亿个 token 。可以通过此快速入门教程开始体验。

我们可以直接传递文本分割器(chunker)的输出,它已经被构造为所需的列表列表 - 每个内部列表包含单个文档的块。

# Contextualized embedding modelquery_embd_context = vo.contextualized_embed(inputs=[[query]], model="voyage-context-3", input_type="query").results[0].embeddings[0]embds_obj = vo.contextualized_embed( inputs=texts, model="voyage-context-3", input_type="document")contextualized_chunk_embds = [emb for r in embds_obj.results for emb in r.embeddings]

使用上下文化的块嵌入执行语义相似性搜索。现在,我们可以执行相同的语义相似性搜索,但使用上下文化的块嵌入。

# Compute the similarity# Voyage embeddings are normalized to length 1, therefore dot-product and cosine # similarity are the same.similarities_context = np.dot(contextualized_chunk_embds, query_embd_context)# Rank similiaritiesranks_context = np.argsort(np.argsort(-similarities_context)) + 1# Combine chunks with their ranks and similaritiesranked_contextualized_chunks = []for i, (chunk_data, similarity, rank) in enumerate(zip(all_chunks, similarities_context, ranks_context)): ranked_contextualized_chunks.append({ "chunk": chunk_data["chunk"], "doc_id": chunk_data["doc_id"], "similarity": float(similarity), "rank": int(rank) })print(f"Contextualized chunk similarities:\n{json.dumps(ranked_contextualized_chunks, indent=2)}")

下表总结了(上下文无关)和(上下文化块嵌入)的检索排名。我们可以看到,在上下文严重丢失的情况下,上下文化块嵌入可以显著提高检索准确率。它没有优先考虑引用 SEC 文件的块,而是正确地将 Leafy Inc. 收入增长的信息列为最相关信息,并将“黄金块”置于顶部。

输入问题:query = “What was the revenue growth for Leafy Inc. in Q2 2024?”

用户可以将voyage-context-3无缝集成到任何现有的 RAG 流水线中,无需进行任何下游更改。情境化分段向量模型尤其适用于:

  1. 长篇、非结构化文档,例如白皮书、法律合同和研究报告。
  2. 跨分段推理,即查询需要跨越多个章节的信息。
  3. 高敏感度检索任务——例如金融、医疗或法律领域——在这些领域,遗漏上下文可能导致代价高昂的错误。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1169510.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2026年 金属零部件试制加工厂家推荐榜单:汽车/航空航天/电子电器钣金软模、热成型、激光切割及DV/EV/PV工程件专业试制 - 品牌企业推荐师(官方)

2026年金属零部件试制加工行业深度解析与权威推荐榜单 在高端制造业的快速发展浪潮中,金属零部件试制加工作为连接产品设计创意与批量生产实现的关键桥梁,其战略地位日益凸显。无论是汽车工业的快速迭代、航空航天领…

你以为的生病,其实是身体在救你

学会与身体好好说话:一份被大多数人忽略的健康使用说明书哎,咱们坐下来聊两句。最近我在复盘的时候,突然走了个神。我发现,咱们这帮在ICT行业摸爬滚打了三十年的人,特别擅长跟复杂的系统打交道。服务器报警了&#xff…

小白必看!MCP协议让AI智能体实现“模块化自由“,告别硬编码噩梦!大模型开发新范式来了!

** AI 智能体现在能做的事情真的很厉害,可以思考、规划,还能执行各种复杂任务,而且代码量并不大。这让开发者看到了一个机会:把那些庞大复杂的代码库和 API 拆解成更实用的模块。 不过要让这些智能变成现实世界里真正能用的东西…

以机器学习为基础的房价预测分析研究(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)

以机器学习为基础的房价预测分析研究(设计源文件万字报告讲解)(支持资料、图片参考_相关定制) 数据集大小为19995条 报告字数8000➕ 本项目利用机器学习算法,如随机森林回归算法,依据房型、面积、建造年份等房产数据特征预测房价。…

基于深度卷积神经网络的网络流量检测与识别(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)

基于深度卷积神经网络的网络流量检测与识别(设计源文件万字报告讲解)(支持资料、图片参考_相关定制) ,包含代码实现、数据集和项目报告。项目详情介绍可参考下图(一个是模型跑出的相关实验结果表、混淆矩阵等,一个是根…

Java面向对象必考点:封装、继承、多态深度揭秘

文章目录Java面向对象必考点:封装、继承、多态深度揭秘封装:给代码穿上“防护衣”为什么需要封装?封装的具体实现封装的好处继承:站在巨人的肩膀上继承的基本语法继承的优势继承的注意事项继承中的访问控制多态:一个接…

# 不会上下文工程,还敢说自己是大模型开发者?小白也能秒变AI大神的全攻略

最近在做Deepresearch以及刷到一个不错的文章:context-engineering-guide,这篇文章揭示了提示工程以及上下文过程在智能体应用开源流程中,包括Deepresearch,MCP在内的一些概念,起到了非常重要的作用! Conte…

广州一日游大致安排

广州一日游大致安排🌅 08:00 抵达广州东站 → 早餐(步行 5–10 分钟) 广州东站周边就是天河区核心,美食密度极高。 推荐早餐(任选其一)点都德(林和中路店) 经典广州早茶,离广州东很近 推荐:虾饺皇、凤爪、肠…

【AI技术yyds】百度搜索新范式、多智能体协作...信息检索领域最新研究成果全解析,开发者必看!从AI搜索到多模态推荐,一篇搞定所有前沿技术!

信息检索领域前沿研究观察:从AI搜索到多模态推荐 最近在信息检索领域看到了不少有意思的研究进展,从百度搜索提出的AI搜索范式到各种新颖的检索增强方法,这些工作都在试图解决当前搜索和推荐系统面临的实际问题。今天想和大家分享一下这些研究…

从排行榜看行业标杆:2026年液压拉力试验机/液压万能试验机十大品牌TOP4综合评测 - 品牌推荐大师1

液压拉力/万能试验机是现代工业与科研中用于测定金属、非金属、复合材料等力学性能的关键设备,广泛应用于航空航天、汽车制造、建筑工程、新材料研发及高等院校等众多领域。随着“中国制造2025”的深入推进与产业升级…

2026年 景观鱼池工程厂家推荐榜单:专业设计/假山鱼池/生态工程,匠心打造庭院水景艺术 - 品牌企业推荐师(官方)

2026年景观鱼池工程厂家推荐榜单:专业设计/假山鱼池/生态工程,匠心打造庭院水景艺术 在现代景观设计与庭院营造中,鱼池已从传统的水体点缀演变为融合生态、艺术与技术的综合性工程。它不仅承载着美化环境、陶冶情操…

AI Agent开发天花板:LangGraph构建DeepResearch实战,代码小白也能秒会的神操作!

上一篇内容我们讲解了怎么构建DeepResearch两个比较核心的组件:确定用户研究范围以及研究,这两个组件可以大致满足用户输入研究主题或者查询,然后输出一个研究结果,不过这个对于系统来说大概率会遇到当用户查询相对复杂&#xff0…

卫星图像匹配 - MKT

卫星图像匹配 1 ISPRS2024 | 视觉语言模型 | 基于Transformer和视觉基础模型的跨视角遥感图像检索方法 A Transformer and Visual Foundation Model-Based Method for Cross-View Remote Sensing Image RetrievalarXi…

【AI新突破】DeepResearch开源:让AI自己搞研究,程序员解放了!附保姆级代码解析+实战教程[特殊字符]

引言 在人工智能快速发展的今天,如何构建一个能够进行深度研究、自主学习和迭代优化的AI系统成为了技术前沿的重要课题。Gemini开源的DeepResearch一周收获7.9k Star,Google的开源项目Gemini DeepResearch技术通过结合LangGraph框架和Gemini大语言模型&…

硬核干货 | 从原型到生产:Anthropic多智能体系统构建全攻略,性能提升90%的秘密都在这里!

Anthropic 公司在 2025 年 6 月 13 日发表了一篇名为《如何构建多智能体研究系统》的文章。 Anthropic 的研究功能利用多个 Claude 智能体(Agent)更高效地探索复杂主题。本文将分享在构建这个系统过程中遇到的工程挑战以及所学到的经验。 Claude 现已具…

RAG开发必看:结构化数据的5种骚操作,小白程序员也能轻松掌握

大家好!今天来聊聊如何在RAG应用中更好地利用结构化数据。很多同学可能觉得RAG主要是处理文本文档,但其实结构化数据也能发挥很大作用。我总结了5种实用的方法: 1. 直接存储行数据 最简单直接的方式就是把数据表的每一行当作一个独立的chun…

2026年 无痕内衣品牌实力推荐榜:无缝文胸与女士内衣舒适科技深度解析,甄选优质女性内衣厂家 - 品牌企业推荐师(官方)

2026年无痕内衣品牌实力推荐榜:无缝文胸与女士内衣舒适科技深度解析,甄选优质女性内衣厂家 随着女性自我意识的觉醒与消费理念的升级,内衣市场正经历一场深刻的“舒适革命”。传统钢圈、蕾丝、缝线带来的束缚与不适…

Adam自适应学习率稳医疗模型AUC

📝 博客主页:jaxzheng的CSDN主页 Adam自适应学习率:医疗AI模型AUC稳定性的关键突破目录Adam自适应学习率:医疗AI模型AUC稳定性的关键突破 引言:医疗AI性能的隐性危机 一、技术本质:Adam为何能“稳住”AUC&a…

API已死,模型永生?揭秘AI创业公司从“包装“到“自研“的逆袭之路,小白也能上车!

现在,大部分AI创业公司都是调用大厂的API来做产品。这样做目前没问题,但是按照历史规律,每家有野心的AI公司最后都会训练自己的模型——哪怕一开始只是做个简单封装的公司也不例外。为什么?因为训练模型的门槛正在快速下降。模型蒸…

直播录制教程如何录制高清直播回放与剪辑推荐录制软件与工具

如果你是一名直播录制爱好者,或者是主播在寻找更高效的直播回放录制和剪辑工具,那么这篇文章将为你推荐一系列适合的直播录制软件及工具。无论你是需要B站的录播姬、blrec等工具,还是在寻找弹幕转换、视频压制和WebHook上传等功能&#xff0c…