Demo 骗了所有人?一做就会,一用就废!多模态 RAG 跨不过去的这道坎,看透了!


前言

近年来,GPT-4V、Gemini Pro Vision 等多模态大模型快速兴起,将图像、文本、音频等多种数据类型统一理解的能力,拓展到了搜索问答、辅助诊疗、法律检索等更复杂的任务场景中。

相比传统大语言模型(LLMs),多模态大模型具备更强的上下文理解能力,适配更丰富的输入方式,具备更广泛的落地潜力。

但与此同时,这些模型也继承了LLMs的一个老毛病:幻觉。尤其是在处理图文混合输入时,模型可能产生与事实不符、逻辑混乱的输出。为了解决这一问题,RAG(检索增强生成)成为业内主流方案——通过外部向量数据库提供的高相关内容,帮助模型“补课”,降低幻觉概率。

在 Zilliz 主办的一场非结构化数据 Meetup 上,来自 TruEra(已被 Snowflake 收购)的开发布道师 Josh Reini 深入讲解了多模态 RAG 架构的实际挑战与落地经验,并分享了如何借助开源工具 TruLens 进行系统级评估,以及如何集成 Milvus 向量数据库来提升检索效果。

01

为什么说多模态RAG会成为大趋势?

与传统只接受文本输入的语言模型不同,多模态大模型可并行处理图像、文字、视频等多种模态,在理解力和生成能力上更接近“现实场景”。

例如,仅依靠图像输入让模型生成中国神话角色“哪吒”的形象,可能出现“双头七臂”之类的误解;但一旦配合如“三头六臂”的文本提示,生成结果便能更准确地符合文化设定。

为了让模型具有“长期记忆”,多模态RAG可以将来自外部的图像、文字、音频、视频等信息嵌入(embedding)到向量数据库(如 Milvus 或托管版 Zilliz Cloud)中,结合检索与生成,形成增强的智能推理能力。

这种多模态RAG能力,相比传统LLM,相当于给一个聪明的大脑,加上了负责记忆的海马体之外,还打通了视觉、听觉等五感,从而更好的理解与响应用户需求。

02

多模态 RAG 系统架构拆解

我们以“图像问答”任务为例,来理解多模态 RAG 的工作流程:

多模态RAG系统工作流程

  1. Multimodal Input Processing(多模态输入处理):RAG系统接收用户的查询问题以及相关图像。
  2. Embedding:使用多模态embedding模型将图像和文本查询转换为统一的向量表达,从而能够分析、理解、比较不同模态输入之间的关系。
  3. Vector Database Retrieval(向量数据库检索):系统使用 embedding 查询 Milvus或者Zilliz Cloud 数据库,返回相似图像及其关联注释;
  4. Completion(完成):检索到的数据(相似图像及其注释)与原始输入查询结合,形成大模型生成响应的上下文窗口。
  5. Response(响应):多模态大模型据此输出更精准、更具语境感的答案。

03

为什么原型无法直接上线?

尽管多模态RAG的效果在demo阶段常常令人惊艳,但一旦进入生产环境,问题随之暴露:如何判断模型是否在“胡说”?是否检索对了内容?是否真正用了检索到的内容?不同组件出了问题,怎么排查?

这些问题的核心在于——缺少系统性评估机制。而这对于教育、医疗、金融等高准确率要求行业,评估工具不可或缺。

目前常见的开源或商用评估工具包括 TruLens、Ragas、LangSmith、LangFuse、OpenAI Evals、DeepEval 和 Phoenix。

其中,TruLens 是目前多模态支持度最强、社区活跃度最高的方案之一,支持与向量数据库、OpenAI、LangChain 等框架无缝集成。

04

如何用 TruLens 评估多模态 RAG:三大核心指标

概括而言,Trulens的优势在于监控、测试和调试应用的能力。通过集成 TruLens,开发团队可以在系统运行过程中持续记录日志、收集反馈,并在每次迭代中明确优化方向。

在典型的RAG系统中,需要评估三个核心组件如下:

RAG的三个核心组件

  1. Query(查询):即用户发送的查询,可能是文本或文本和图像组合的形式。我们需要评估输入是否清晰、是否会引发歧义(如图文冲突)。
  2. Context(检索上下文):系统从向量数据库中检索到的相关信息,如图像和文本。这部分,需要评估系统从向量数据库中检索回来的内容是否与问题相关,是否提供了有用信息。
  3. Response(模型输出):LLM或多模态模型基于检索到的上下文和原始查询生成答案。这部分,评估生成的回答是否基于上下文,是否存在逻辑错误或编造内容。

基于此,TruLens的所有评估,主要基于三大方面出发:

Context Relevance(上下文相关性):检索到的内容是否与原始问题匹配?

Groundedness(基于事实):回答是否有检索内容支撑?

Answer Relevance(答案相关性):最终回答是否有用、准确、有逻辑?

05

实战:X-ray Insight 的医学图像问答系统

在一次黑客松中,X-ray Insight 团队构建了一个基于 Milvus 和 TruLens 的图像问答系统,用于 X 光图像辅助诊断。

系统流程如下:

第一步,图像预处理:用户上传 X 光图与诊断,其中, X 光图系统生成 embedding后,与元数据(诊断)一起加载到Milvus/Zilliz向量数据库

第二步,向量检索:Milvus 检索相似病例图像及诊断注释;

第三步,诊断生成:多模态模型结合原始输入和注释生成建议诊断;

第四步,系统评估:TruLens 评估生成诊断是否真实可靠,并根据获得的反馈进行改进。(准确说,这个评估流程其实从预处理阶段就已经伴随产生)

X-ray Insight系统的工作流程

结论

多模态RAG架构的出现,无疑让我们离“通用人工智能”的愿景更近了一步。但它并不是银弹。再先进的模型,也可能在关键时刻出现幻觉,真正决定一个AI系统能否落地并可持续演进的,不是它能生成什么,而是我们是否有能力让它做的更好。

而围绕做的更好,必须要有充分的工程实践,以及对细节的打磨。过程中,像Milvus这样的向量数据库,可以把RAG系统的“知识外脑”变得可扩展、可控、可观测。TruLens则把评估从事后倒查,变成过程中优化,成为系统性设计的一部分。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1124532.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

无人值守智能污水处理控制系统:威纶通触摸屏与西门子PLC协同运行,真实工程项目稳定运行一年多供...

无人值守污水处理控制系统。 威纶通触摸屏与西门子200smart PLC编写的智能污水处理控制系统,带图纸,带PLC程序,触摸屏画面,控制要求,工艺流程,真实工程项目,已稳定运行一年多。 供大家学习参考在…

通过合理建模与架构设计,90% 的“JOIN 需求”可转化为 ES 原生支持的高效查询。

“通过合理建模与架构设计,90% 的‘JOIN 需求’可转化为 ES 原生支持的高效查询” 这一论断,是 Elasticsearch 工程实践的核心思想,其本质是用数据建模的前期成本,换取查询性能的指数级提升。一、建模范式:ES 的三大反…

‌测试教育路径:大学课程 vs 自学——2026年软件测试从业者专业成长指南

核心结论:能力为王,路径可选‌ 在2026年的中国软件测试行业,‌学历不再是职业发展的决定性门槛,工程能力与持续学习力才是晋升的核心引擎‌。无论是大学科班出身,还是自学转型者,只要掌握自动化测试、接口…

90%的程序员都在错误选择Embedding模型!6步评估框架+代码实战,让你避开所有坑,小白也能秒变向量专家!

通过通过将原始输入转换为固定大小的高维向量,捕捉语义信息,embedding(嵌入)模型在构建RAG、推荐系统,甚至自动驾驶的模型训练过程中都产生着至关重要的影响。 即使 OpenAI、Meta 和 Google 等科技巨头,也…

基于遗传算法优化的VMD信号去噪算法:样本熵与信噪比双重适应度函数提升信噪比及故障诊断特征提取研究

Matlab 基于遗传算法优化的VMD信号去噪算法 创新点:基于样本熵作为适应度函数 创新点2:基于信噪比作为适应度函数 提高信噪比 本人研究方向信号处理特征提取与故障诊断算法轴承振动信号中的微弱冲击特征总是被噪声淹没,这给旋转机械故障诊断…

测试人员压力管理:构建可持续的截止日期应对框架——面向软件质量守护者的专业生存指南

引言:被压缩的时间与被放大的责任 在敏捷开发与DevOps普及的浪潮中,测试工程师站在质量防线的最后关卡。IBM研究显示,78%的测试人员经历过程度不同的截止日期焦虑(2025),而因时间压力导致的漏测问题占生产…

美国地产交易被AI大模型颠覆,RAG+混合搜索效率提升40%,程序员都在学!

在中国,买一套房,除了要有钱,还要看居住证、看社保、看户籍地;要关注当地限购政策,关注交易税,关注银行贷款、资金审核、税率变化……各种乱七八糟的文件与政策看得人头晕眼花? 其实美国也一样…

S32K144 Bootloader开发实战:CAN与串口双剑合璧

S32K144的bootloader,包括CAN和串口的,上 S32K144的bootloader,包括CAN和串口的,上下位机全部开源,提供使用指导和有限的代码解释,仅供学习使用,无uds,无uds,无uds&#…

硕士论文过审第一步:paperzz 论文查重功能,怎么帮你避开重复率雷区?

Paperzz-AI官网免费论文查重复率AIGC检测/开题报告/文献综述/论文初稿 paperzz - 论文查重https://www.paperzz.cc/check 对研究生来说,论文写完后的 “重复率检测” 是 “临门一脚”—— 但很多人要么不知道 “不同检测版本的区别”,要么踩坑 “查重不…

MATLAB四旋翼仿真中的滑模控制、反步控制与PID控制方法及公式文献参考

MATLAB四旋翼仿真 滑模控制 simulink 三种控制方法 有公式和文献参考1.滑模SMC 2.反步控制 backsteping control 3.pid控制四旋翼无人机在天上飞得稳不稳,全靠控制算法撑腰。今天咱们用MATLAB/Simulink实战三种硬核控制方案,手把手教你建模仿真。老规矩…

GRBL三轴在STM32F103C8T6上的移植与脱机运行控制指南:源码资料打包,含OLED屏...

主页全部资料打包!GRBL三轴脱机运行移植STM32F103C8T6 GRBL_V1.1f三轴移植到STM32F103C8T6,并添加脱机控制,使用OLED屏和旋转编码器控制,联机脱机都可使用。 价格为本人主页内全部资料代码打包的价格,持续搬运更新新代…

IP5385至为芯支持C口双向快充的30W到100W移动电源方案芯片

英集芯IP5385是一个广泛用于移动电源,充电宝,户外应急电源等便携设备的移动电源管理SOC芯片,支持30W-100W双向充放电。兼容UFCS、PD3.0、QC、SCP、FCP、AFC等主流快充协议。实现跨品牌设备的快速充电。提供USB-A2、双向USB-C1,USB…

【Linux命令大全】003.文档编辑之pico命令(实操篇)

【Linux命令大全】003.文档编辑之pico命令(实操篇) ✨ 本文为Linux系统文档编辑与文本处理命令的全面汇总与深度优化,结合图标、结构化排版与实用技巧,专为高级用户和系统管理员打造。 (关注不迷路哈!!&…

生活电器:重塑日常的科技力量

从清晨唤醒人的智能音箱,到早餐时刻高效运转的破壁机,再到夜晚守护安睡的空气净化器,生活电器已深度融入现代家庭的每一个角落。它们以科技为内核,以实用为导向,将人们从繁琐的家务劳动中解放出来,不断重塑…

深度探索无线充电黑科技:LCL-S拓扑结构的那些事儿

无线电能传输LCL-S拓扑结构(左边两电平逆变器,右边不可控整流结构) 基于滑模控制的移相控制 仿真效果较好 matlab/simulink 感性耦合电能传输系统 还有PI控制的模型,可以用做对比无线电能传输技术,这个听起来像是科幻小说里的玩意儿&#xff…

WordPress数据可视化插件定制开发最佳公司

数据可视化在WordPress网站中的重要性在当今数字化时代,数据已经成为企业决策的核心驱动力。仅仅拥有海量数据是不够的,关键在于如何将这些数据以直观、易懂的方式呈现给用户。WordPress作为全球最流行的内容管理系统,占据了超过43%的网站市场份额,但其原生功能在数据可视化方面…

罗德与施瓦茨HMP4040 HMP4030可编程直流电源四通道

产品简述: 深圳市伊璐华科技有限公司是ROHDE&SCHWARZ罗德与施瓦茨的代理商。罗德与施瓦茨公司是电子测试与测量设备在欧洲影响力大的制造商。我们的测试与测量仪器和系统成为全球在研究,开发,生产和服务中的标准。在模拟和数字通信领域中…

基于STM32的智能红绿灯控制系统

基于STM32的智能红绿灯控制系统 第一章 系统设计背景与需求分析 传统红绿灯多采用固定配时方案,在车流量动态变化的场景中存在明显局限:高峰时段易导致拥堵,低谷时段则造成路口资源浪费。据统计,固定配时路口的通行效率比动态调节…

Delta 台达PLC-EH3铆压机程序:3轴控制方案详解及电气设计(含MODBUS通讯、伺服...

Delta/台达PLC-EH3铆压机程序。 3轴,Z轴(SMC)电缸下降的距离用的是位置加扭矩模式,台达PLC MODBUS通讯控制台达A2伺服扭矩,自动上下料,每个点位可跳点,可设位置和扭矩,PLC程序有完整的注释,触摸…

今日头条视频下载方法汇总 高清无水印 (2026 最新实测)

在刷今日头条的时候,经常会遇到一些干货满满、剪辑精良的视频,比如教程、纪录片片段、搞笑剪辑、热点解说等,想保存下来反复观看或者二次学习,但直接保存往往自带水印。那么问题来了 今日头条视频怎么无水印下载? 手机…