震惊!金融问答准确率暴涨69%,斯坦福团队用“双保险“外挂教大模型“读懂财报+查词典“!小白程序员也能秒变AI专家

主要关注LLM、RAG、Agent等AI前沿技术,每天分享业界最新成果和实战案例。

FinQA 榜单上,零样本 GPT-4 只能拿到 75% 准确率,距离人类专家 91% 相差一截。
错误 85% 集中在两件事:

  1. 看不懂专业词:option、fair value 是啥?
  2. 算不对数字:多步运算、单位换算、表格行列对不齐。

一句话总结:模型缺的不是算力,而是“金融常识”和“精准上下文”

一、给大模型配“双保险”外挂

论文提出Multi-Retriever RAG,把“外挂知识库”拆成两条独立召回链路,再喂给同一个生成器。

模块作用关键技术
内部召回器从超长财报里挑出 5 句有用信息微调 SecBERT 做二分类
外部召回器把金融词典里 3 条最相关定义抓过来DPR+Faiss 向量检索
生成器(2 选 1)拿到精炼上下文后写答案① 符号神经生成器 ② Gemini 提示词

一句话:先“读薄”财报,再“查词典”,最后让大模型“闭卷答题”

二、两条召回 + 两种生成

1. 内部召回器

  • 训练数据:FinQA 已标注“金句”≈正样本,其余≈负样本
  • 模型:SecBERT-base 二分类,Top-5 输出
  • 效果:Top-3 召回率 91.3%,比原版 BERT 高 2.3 个点

2. 外部召回器

  • 知识源:FinRAD 金融词典 1.3 万术语 → Gemini 压缩成 1 句定义
  • 索引:Faiss 内积,L2 归一化,Top-3 输出
  • 结论:DPR 编码器虽然分数略低,但人工评估相关性最高,最终胜出。

3. 符号神经生成器(需训练)

  • encoder:SecBERT / RoBERTa-Large
  • decoder:LSTM,逐步生成可执行程序
  • 特殊词表:10 种运算、15 个常数、11 个步骤变量 (#0~#9)
  • 示例程序:

生成的符号操作是三个运算符:

divide(9413, 20.01), divide(8249, 9.48), subtract(#0, #1)

  • 指标:程序准确率 60.5%,执行准确率 63.5%,比 FinQA 原基线高 3.5%。

4. Gemini 提示生成器(无需训练)

  • zero-shot:36% 执行准确率
  • 加内部召回:41.8%
  • 再加外部召回 + 3-shot:69.4%SOTA
  • 关键:Gemini-1.5-pro 对“少样本+数字”更友好,幻觉明显下降。

三、模型选择实践

  1. 领域预训练 > 通用大参数
    SecBERT(260 K 10-K 财报预训练)在召回和最终准确率上全面碾压通用 RoBERTa-Large,印证“垂直数据比横向参数更香”。

  1. 外挂知识也有“副作用”
    小模型(RoBERTa-Base)加外部定义后性能持平甚至下降,原因是 512 token 上限导致截断,引入幻觉;大模型则能“消化”噪声,收益 > 损失。
  2. 多步推理仍是天花板
    单步题准确率 75%,多步题直接掉到 59%,未来值得继续啃硬骨头。

四、总结

  1. 做专业问答,先别急着堆参数,垂直数据+轻量召回往往更划算。
  2. RAG 不是“外挂越多越好”,模型容量要匹配知识粒度,否则截断+幻觉反噬。
  3. 最新 Gemini 在“少样本+数字”场景已能逼近监督模型,值得持续关注。

“把财报读薄,把词典搬来,再让大模型写答案”——斯坦福团队用 20 epoch 把 FinQA 基线干翻,还顺手给了一个可复制的 Multi-Retriever 模板。垂直领域问答,不妨先试试这套“双保险”外挂。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1184450.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

实用指南:Flutter深度解析:从原理到实战的跨平台开发指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2026年智能体检一体机厂家推荐高精度设备优选指南 - 深度智识库

随着基层医疗数字化转型加速及健康管理需求升级,2026年智能体检一体机、健康体检一体机等设备市场迎来爆发式增长。这类设备凭借集成化检测、智能化数据管理优势,成为医院、社区卫生服务中心、健康小屋的核心配置。本…

考研高等数学笔记02:函数与极限 映射与函数

考研高等数学笔记02:函数与极限 映射与函数 1 函数的概念 设存在数据集\(D,R_f\subset R\),对于任一变量\(x \in D\),总存在一个变量\(y \in R_f\)按照一定的法则\(f\)与之对应,则称\(x\)是\(y\)的函数,记为:\(y…

audio2face gRPC 服务 10246

10246 常见端口对应关系(不同版本略有差异) 5008:REST / HTTP 控制接口(你之前问过的) 10246:实时流 / gRPC / Stream(驱动表情用得最多) 测试端口: netstat -ano | f…

文献检索的方法与技巧:提升学术研究效率的关键策略

做科研的第一道坎,往往不是做实验,也不是写论文,而是——找文献。 很多新手科研小白会陷入一个怪圈:在知网、Google Scholar 上不断换关键词,结果要么信息过载,要么完全抓不到重点。今天分享几个长期使用的…

MAF快速入门(12)主工作流+子工作流

在实际业务场景中,往往需要在主工作流中根据工单类型分发或移交到不同的标准化子流程中进行后续处理。本文介绍了MAF中主工作流 + 子工作流的工作模式,最后通过一个企业客服中心处理投诉工单的案例介绍了这种模式的代…

大兴安岭地区施耐德电气厂家技术支持与响应效率评测,施耐德电气/电气自动化/中低压电气/工控产品,施耐德电气厂家有哪些 - 品牌推荐师

评测背景 在东北电气自动化市场,施耐德电气作为全球能源管理与自动化领域数字化转型的专家,其产品与服务的落地质量直接影响区域工业、能源、交通等核心领域的运行效率。大兴安岭地区因地理气候特殊、项目周期紧凑,…

2026年最新版:智能健康体检设备选型指南——鼎恒科技引领身高体重测量新标准 - 深度智识库

在数字化健康体检时代,身高体重测量作为基础体检项目,其准确性和便捷性直接影响着体检效率和用户体验。随着健康意识提升和医疗设备智能化发展,市场对高质量身高体重测量设备的需求日益增长。面对众多品牌,如何选择…

信息管理毕设容易的方向分享

1 引言 毕业设计是大家学习生涯的最重要的里程碑,它不仅是对四年所学知识的综合运用,更是展示个人技术能力和创新思维的重要过程。选择一个合适的毕业设计题目至关重要,它应该既能体现你的专业能力,又能满足实际应用需求&#xff…

开源全能意图、指令识别框架 OddAgent 更新

为了避免日后大家在授权问题上出现顾虑,我特别将 OddAgent 的授权从GPL改成了MIT。一、前言 上周四下午领导说公司的某个助手项目准备启用自研的备用方案,然后我的 OddAgent 项目就开始从备胎出现转机,有可能会成为…

零基础必看!从 0 搞懂护网行动:定义、背景、参与方,一文理清核心逻辑!

一、什么是护网行动?不是 “黑客对抗” 这么简单 很多人第一次听到 “护网行动”,会误以为是 “黑客和安全人员的技术 PK”,但实际上它是由国家网络安全主管部门牵头,联合关键行业单位(如金融、能源、交通、政务&…

德国 EPR 做错了怎么办?还能改吗?

很多卖家真正开始慌, 不是因为“没做德国 EPR”, 而是这一句: 我已经做了德国 EPR, 但好像做错了,还能改吗? 如果你也有这个担心,这篇一定要看完。 大多数德国 EPR“做错”的情况&#xf…

2026年身高体重秤/测量仪选型指南:精准适配B端场景的厂家及产品推荐 - 深度智识库

随着健康管理智能化升级,身高体重秤、超声波体检机等基础设备已成为医疗、社区康养、健康小屋等B端场景的核心配置。2026年,市场对设备的精度、多模态数据整合、场景适配性要求显著提升,尤其是“高精度+智能化管理”…

linux提升文件夹权限命令_linux修改文件夹及文件权限的命令

Linux 系统下如何修改文档及文件夹 ( 含子文件夹 ) 权限,我们来看一下。 一 介绍: 可以使用命令 chmod 来为文件或目录赋予权限。 Linux/Unix 的档案存取权限分为三级 : 档案拥有者、群组、其他。利用 chmod 可以藉以控制档案如何被他人…

【深度学习】YOLO学习资源之官方文档Darknet文档

以下是 YOLO 与 Darknet 的权威学习资源整理,涵盖官方文档、核心源码、入门教程与调试工具,适配从基础入门到源码深度解读的全链路学习需求。 一、YOLO 官方核心资源(主流版本) 资源类型具体内容链接核心价值YOLOv8/v11 官方文档…

就一次!带你彻底搞懂CSRF攻击与防御

与XSS攻击相比,利用CSRF漏洞发动攻击会比较困难,这也是在网络上看起来CSRF的人气小于XSS的原因之一。下面我们来利用CSRF漏洞发起攻击,并针对攻击进行防御,彻底弄懂CSRF,话不多说,我们直接开冲。 什么是CSR…

免费查文献的网站推荐:实用学术资源获取平台整理

做科研的第一道坎,往往不是做实验,也不是写论文,而是——找文献。 很多新手科研小白会陷入一个怪圈:在知网、Google Scholar 上不断换关键词,结果要么信息过载,要么完全抓不到重点。今天分享几个长期使用的…

【例9.17】货币框架(信息学奥赛一本通- P1273)

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

PC5702恒频PWM低噪声12V/2A升压转换器1.2MHZ频率

概述:PC5702 是一款恒频脉冲宽度调制(PWM)低噪声升压转换器,专为常需本地生成高压的低压系统设计。该器件采用电流模式固定频率架构调节输出电压,具备快速瞬态响应和逐周期电流限制功能。PC5702 集成了欠压锁定、过压保…

AtomGit 亮相第五届 AIGC 开发者大会,链接产业新机遇

1 月 17 日,第五届 AIGC 开发者大会(ACDC 2026)在北京圆满落幕。作为开源生态与 AI 协同创新的重要参与者,AtomGit 受邀参会并设展,与千余名产学研专家、开发者及企业代表齐聚一堂,深度链接 AIGC 产业新机遇…