大模型RAG(检索增强)创新--SELF-RAG

        检索增强生成 (RAG) 提供了一种将 ChatGPT/GPT-4 等大型语言模型与自定义数据集成的途径,但存在局限性。让我们看看 RAG 最近的研究是如何解决一些问题。

        大语言模型(LLM)将改变整个金融领域。其中一个场景是大语言模型可以学习大量文档,并在很短的时间内分析趋势并分析收益。但存在的问题是很多时候你得到的答案只是部分且不完整的。举例来说,您有一个文档,其中包含 X 公司过去 15 年的年收入,但位于不同的段落。在标准检索增强生成 (RAG) 架构中,您通常检索前 k 个相似文档,或选择固定上下文长度内的文档。然而,这可能会带来几个问题。一个问题是 top-k 文档并不包含所有答案——例如可能仅对应于过去 5 或 10 年。另一个问题是您检索的块和问题并不一定相似。在这种情况下,您可能会得到错误的答案

        当您已经开发了普通的 RAG 策略,该策略在您测试的简单情况下运行良好,但当您提出一些开箱即用的问题时,就会失败。让我们看一下 RAG 最近的一些创新,看看它们如何为上述问题提供解决方案。

自我RAG

        作者开发了一种巧妙的方法,微调模型,让模型如(Llama2-7B 和 13B)输出特殊标记  [Retrieval], [No Retrieval], [Relevant], [Irrelevant], [No support / Contradictory], [Partially supported], [Utility]等附加到 LM 生成中,用于决定上下文是否相关/不相关、是否支持从上下文生成 LM 文本以及对生产是否有用。

训练自我 RAG

        Self-RAG 通过两步过程进行训练。在步骤 1 中,训练一个简单的 LM 对生成的输出(仅提示或提示 + RAG 增强输出)进行分类,并在末尾附加相关的特殊标记。这个模型是通过 GPT-4 进行训练的。具体来说,GPT-4 是使用特定指令进行提示的(“Given an instruction, make a judgment on whether finding some external documents from the web helps to generate a better response.”)

在步骤 2 中,生成器模型使用标准的下一个标记预测目标,生成用于检索/批评生成的特殊标记。与其他微调或 RLHF 方法不同,下游训练会影响模型输出并使后代产生偏差,通过这种简单的方法,模型仅被训练以生成适当的特殊标记,不会改变底层 LM!太棒了!

评估自我RAG

        作者针对公共卫生事实验证、多项选择推理、问答等进行了一系列评估。共有 3 种类型的任务。闭集任务包括事实验证和多项选择推理,并以准确性作为评价指标。简短的生成任务包括开放域问答数据集。作者评估了模型生成中是否包含较好答案,而不是严格要求精确匹配。

长篇生成包括传记生成和长篇问答。为了评估这些任务,作者使用 FactScore 来评估传记——基本上是对生成的各种信息及其事实正确性的衡量。对于长格式的 QA,使用了引用精度和召回率。

Self-RAG 在非专有模型中表现最好,并且在大多数情况下较大的 13B 参数优于 7B 模型。在某些情况下它甚至优于 ChatGPT。       

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/72032.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《AI和人工智能和编程日报》

OpenAI:将深度研究扩展到 ChatGPT Plus、Team、Edu 和 Enterprise 用户,每月 10 次查询;Pro 用户每月有 120 次查询,ChatGPT 语音模式向免费用户开放。DeepSeek:R1 大模型宣布降价,调用价格将至四分之一&am…

【音视频】编解码相关概念总结

NALU RTP PS流 三者总体关系 NALU在RTP中的应用:视频流的RTP传输通常将NALU作为基本的单元进行传输。每个RTP包携带一个或多个NALU,这些NALU包含了视频编码数据。RTP协议通过其头部信息(如时间戳、序列号等)帮助接收端重新排列和…

端口映射/内网穿透方式及问题解决:warning: remote port forwarding failed for listen port

文章目录 需求:A机器是内网机器,B机器是公网服务器,想要从公网,访问A机器的端口方式:端口映射,内网穿透,使用ssh打洞端口:遇到问题:命令执行成功,但是端口转发…

11特殊函数

一、递归函数 递归概念:如果一个函数内部,包含了对自身的调用,则该函数称为递归函数。要点: 只有能被表达为递归的问题,才能用递归函数解决。递归函数必须有一个可直接退出的条件,否则会进入无限递归。递归…

如何使用useContext进行全局状态管理?

在 React 中,使用 useContext 进行全局状态管理是一种有效的方法,尤其在需要在多个组件之间共享状态时。useContext 允许你在组件树中传递数据,而无需通过每个组件的 props 逐层传递。以下是关于如何使用 useContext 进行全局状态管理的详细指…

鸿蒙 ArkUI 实现敲木鱼小游戏

敲木鱼是一款具有禅意的趣味小游戏,本文将通过鸿蒙 ArkUI 框架的实现代码,逐步解析其核心技术点,包括动画驱动、状态管理、音效震动反馈等。 一、架构设计与工程搭建 1.1 项目结构解析 完整项目包含以下核心模块: ├── entry…

神经性肺纤维的预防方法

神经性肺纤维的预防方法 一、引言 神经性肺纤维化是一种慢性进行性肺部疾病,其病因复杂,包括遗传、环境等多种因素。该病不仅影响患者的呼吸功能,还可能对神经系统造成损害。因此,预防神经性肺纤维化显得尤为重要。本文将详细介…

azure sql 网络安全组 网络安全sql注入

🍅 点击文末小卡片 ,免费获取网络安全全套资料,资料在手,涨薪更快 SQL注入 1、原理 针对注入的攻击行为可描述为通过用户可控参数中注入SQL语法,破坏原有SQL结构,达到编写程序意料之外结果的攻击行为。 其…

【Day50 LeetCode】图论问题 Ⅷ

一、图论问题 Ⅷ 1、dijkstra算法 堆优化 采用堆来优化&#xff0c;适合节点多的稀疏图。代码如下&#xff1a; # include<iostream> # include<vector> # include<list> # include<queue> # include<climits>using namespace std;class myco…

利用node.js搭配express框架写后端接口(一)

Node.js 凭借其高效的非阻塞 I/O 操作、事件驱动架构以及轻量级的特点&#xff0c;成为了开发高性能服务器应用的热门选择。Express 框架作为 Node.js 上最流行的 Web 应用框架之一&#xff0c;以其简洁的 API 和丰富的中间件生态系统&#xff0c;极大地简化了 Web 后端开发流程…

【小白数学】为什么可以用拉格朗日乘子法求函数的极值【二】

我们在上一篇【小白数学】- 为什么可以用拉格朗日乘子法求函数的极值【一】已经介绍了一种较为“严谨“的方法来说明为什么拉格朗日乘子法可以帮助我们求具有等式约束条件下的函数的极值。虽然在我们的例子中”等式约束“中只有一个等式。但其实很容易推广到多个等式约束的情况…

JAVA面试_进阶部分_netty面试题

1.BIO、NIO 和 AIO 的区别&#xff1f; BIO&#xff1a;一个连接一个线程&#xff0c;客户端有连接请求时服务器端就需要启动一个线程进行处理。线程开销大。 伪异步 IO&#xff1a;将请求连接放入线程池&#xff0c;一对多&#xff0c;但线程还是很宝贵的资源。 NIO&#x…

考研出分24小时,人类精神状态图鉴

2月24日&#xff0c;上午10点起&#xff0c;各省考研初试成绩陆续公布&#xff0c;考生们或紧张的输入准考证号&#xff0c;或抱团等待“审判”。然而更魔幻的还在后头——下午4点&#xff0c;教育部竟在同一天直接发布了《2025年研考国家分数线》。 不少网友表示&#xff1a;…

川翔云电脑优势总结

在数字化时代&#xff0c;川翔云电脑依托云计算技术&#xff0c;为用户解决硬件性能瓶颈问题。川翔云电脑使用云渲码&#xff1a;【2355】 卓越硬件配置&#xff1a;配备 RTX 3090、48G 显存的 RTX 4090plus&#xff0c;支持 1 - 8 卡机配置&#xff0c;多卡并行计算能力强&am…

DeepSeek开源周Day4:三连发!突破 AI 训练瓶颈的立体解决方案,并行计算三剑客DualPipe、EPLB与Profile-data

项目地址&#xff1a; https://github.com/deepseek-ai/DualPipehttps://github.com/deepseek-ai/eplbhttps://github.com/deepseek-ai/profile-data 开源日历&#xff1a;2025-02-24起 每日9AM(北京时间)更新&#xff0c;持续五天 (4/5)&#xff01; ​ ​ 一、背景概述 …

基于W2605C语音识别合成芯片的智能语音交互闹钟方案-AI对话享受智能生活

随着科技的飞速发展&#xff0c;智能家居产品正逐步渗透到我们的日常生活中&#xff0c;其中智能闹钟作为时间管理的得力助手&#xff0c;也在不断进化。基于W2605C语音识别与语音合成芯片的智能语音交互闹钟&#xff0c;凭借其强大的联网能力、自动校时功能、实时天气获取、以…

Vite与Turbopack现代构建工具架构解析:秒级构建的性能奥秘

引言&#xff1a;传统构建工具的效能瓶颈 Shopify将前端仓库迁移至Vite后&#xff0c;HMR更新时间从Webpack的4.2秒缩短至48毫秒。Turbopack在Vercel生产环境测试中&#xff0c;增量构建速度较Webpack快700%。ChromeOS团队采用Vite后&#xff0c;生产构建从Webpack的17分钟优化…

网络基础知识-2

N个节点完全互联的网型网即N个节点的无向完全图&#xff0c;无向完全图的边数计算如下&#xff1a;每个节点都要指向其他N-1个节点&#xff0c;但是因为无向两个节点之间的边会重复&#xff0c;因此有N(N-1)/2条边HDLC&#xff08;高级数据链路控制协议&#xff09;是一种面向比…

视频级虚拟试衣技术在淘宝的产品化实践

作为一种新的商品表现形态&#xff0c;内容几乎存在于手淘用户动线全流程&#xff0c;例如信息流种草内容、搜索消费决策内容、详情页种草内容等。通过低成本、高时效的AIGC内容生成能力&#xff0c;能够从供给端缓解内容生产成本高的问题&#xff0c;通过源源不断的低成本供给…

蓝桥备赛(三)- 条件判断与循环(下)

一、for循环 1.1 for 循环语法形式 for 循环是三种循环中使用最多的 &#xff0c; for 循环的语法形式如下&#xff1a; 1.2 执行流程 for 循环中 &#xff0c; 表达式1&#xff08;初始化&#xff09;只执行一次 &#xff01; 1.3 实践 练习&#xff1a;使用 for 循环在屏幕…