主要关注LLM、RAG、Agent等AI前沿技术,每天分享业界最新成果和实战案例。
FinQA 榜单上,零样本 GPT-4 只能拿到 75% 准确率,距离人类专家 91% 相差一截。
错误 85% 集中在两件事:
- 看不懂专业词:option、fair value 是啥?
- 算不对数字:多步运算、单位换算、表格行列对不齐。
一句话总结:模型缺的不是算力,而是“金融常识”和“精准上下文”。
一、给大模型配“双保险”外挂
论文提出Multi-Retriever RAG,把“外挂知识库”拆成两条独立召回链路,再喂给同一个生成器。
| 模块 | 作用 | 关键技术 |
|---|---|---|
| 内部召回器 | 从超长财报里挑出 5 句有用信息 | 微调 SecBERT 做二分类 |
| 外部召回器 | 把金融词典里 3 条最相关定义抓过来 | DPR+Faiss 向量检索 |
| 生成器(2 选 1) | 拿到精炼上下文后写答案 | ① 符号神经生成器 ② Gemini 提示词 |
一句话:先“读薄”财报,再“查词典”,最后让大模型“闭卷答题”。
二、两条召回 + 两种生成
1. 内部召回器
- 训练数据:FinQA 已标注“金句”≈正样本,其余≈负样本
- 模型:SecBERT-base 二分类,Top-5 输出
- 效果:Top-3 召回率 91.3%,比原版 BERT 高 2.3 个点
2. 外部召回器
- 知识源:FinRAD 金融词典 1.3 万术语 → Gemini 压缩成 1 句定义
- 索引:Faiss 内积,L2 归一化,Top-3 输出
- 结论:DPR 编码器虽然分数略低,但人工评估相关性最高,最终胜出。
3. 符号神经生成器(需训练)
- encoder:SecBERT / RoBERTa-Large
- decoder:LSTM,逐步生成可执行程序
- 特殊词表:10 种运算、15 个常数、11 个步骤变量 (#0~#9)
- 示例程序:
生成的符号操作是三个运算符:
divide(9413, 20.01), divide(8249, 9.48), subtract(#0, #1)
- 指标:程序准确率 60.5%,执行准确率 63.5%,比 FinQA 原基线高 3.5%。
4. Gemini 提示生成器(无需训练)
- zero-shot:36% 执行准确率
- 加内部召回:41.8%
- 再加外部召回 + 3-shot:69.4%SOTA
- 关键:Gemini-1.5-pro 对“少样本+数字”更友好,幻觉明显下降。
三、模型选择实践
- 领域预训练 > 通用大参数
SecBERT(260 K 10-K 财报预训练)在召回和最终准确率上全面碾压通用 RoBERTa-Large,印证“垂直数据比横向参数更香”。
- 外挂知识也有“副作用”
小模型(RoBERTa-Base)加外部定义后性能持平甚至下降,原因是 512 token 上限导致截断,引入幻觉;大模型则能“消化”噪声,收益 > 损失。 - 多步推理仍是天花板
单步题准确率 75%,多步题直接掉到 59%,未来值得继续啃硬骨头。
四、总结
- 做专业问答,先别急着堆参数,垂直数据+轻量召回往往更划算。
- RAG 不是“外挂越多越好”,模型容量要匹配知识粒度,否则截断+幻觉反噬。
- 最新 Gemini 在“少样本+数字”场景已能逼近监督模型,值得持续关注。
“把财报读薄,把词典搬来,再让大模型写答案”——斯坦福团队用 20 epoch 把 FinQA 基线干翻,还顺手给了一个可复制的 Multi-Retriever 模板。垂直领域问答,不妨先试试这套“双保险”外挂。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~