结构化预处理让DeepSeek准确率提升51%,现已开源丨清华深言

零成本降低大模型幻觉新方法,让DeepSeek准确率提升51%!

方法名为LingoEDU*(简称EDU),即基本信息单元(Elementary Discourse Unit,EDU)*技术。

LingoEDU在大模型正式生成之前装上的一个专门执行「预处理环节」的模型,这一环节主打精准切分,并且为每一个最小信息单元分配唯一的索引标记,给每一个生成内容打上标号——当需要引用某个信息时,可以精确地指向它的位置。

如此一来,让信息进入主模型进行思考生成前,先完成结构化预处理。

LingoEDU示意:将原文拆分成基本语义单元树后,能方便地在多文档问答、文档总结、DeepSearch等应用场景进行高效地上下文处理

这种「坐标系」让后续的所有操作都可以溯源,模型输出的任何内容都能精确对应到原文的具体位置,将「生成」关进「可追溯」的笼子里。

试想,如果生成的每句话、每个信息点都能精准地追溯到原文,都能check其正确与否,那么幻觉问题就可以在最大程度上被解决。

总结来说,其核心是对上下文进行结构化的精准切分,形成富含结构信息和语义信息的篇章结构树——每个节点都是一个完整的基本话语单元,节点之间通过清晰的层级关系连接。

LingoEDU具备如下优点:

1.所形成的最小信息单元完整保留了原文的「语义信息」,同时保留了节点信息的完整性和节点之间信息的连贯性。
2.使得上下文包含精准的「结构信息」,便于高效压缩,提升生成准确性。

实验结果显示,LingoEDU在切分准确性指标上显著超过所有基线模型,在成本和效率上也显著优于所有通用大模型的方法。

LingoEDU能够零成本适配所有大模型。在有着“AGI终极试炼”之称的HLE榜单上,DeepSeek-R1的准确率是9.0%,使用EDU之后准确率提升到13.6%,准确率相对提升51%

这项研究由深言科技联合清华大学NLP实验室提出,以下是更多细节。

一、现有方案的两难困境

大模型产生幻觉的核心原因,从输出一侧来看,可以归结为其任务是基于概率的“合理的下一个词”的生成器;从输入一侧来看,则是由于输入的上下文过长,模型容易在海量信息中「迷路」,无法准确理解其中全部内容,从而产生不忠实于原文的输出。

前者是这种技术范式的固有特征,后者则可以在一定程度上被规范。

基于这一洞察,对后者问题的一个自然解决思路是:在把文档喂给模型之前,先做一些预处理,压缩去除冗余信息、保留必要信息,这样降低模型幻觉风险,同时降低模型处理成本和效率。

在过去的大模型训练过程中,任一基础模型都能实现对文档进行基本的结构化切分,但是其精准性却无法得到保证,这也是幻觉率居高不下的原因。

目前业界主要有两类上下文压缩方法,但都存在明显的缺陷:

显式压缩:看得见,但读不懂

这类方法直接对文本「动刀」,比如删除不重要的词或句子。

问题在于,这种操作往往基于单个词*(Token)*或粗糙的句子级别进行,容易把句子切得支离破碎。

比如,原文是「因为天气恶劣,航班被迫延误」,压缩后可能变成「天气恶劣,航班延误」——虽然保留了关键词,但因果关系变得模糊。

对模型来说,这就像阅读一篇被打了马赛克的文章,很难准确理解原意。

隐式压缩:效率高,但成了黑盒

另一类方法是把文本压缩成向量表示*(即“Gist Tokens”)*,相当于把整段话「浓缩」成一个黑盒表示。

这种方法效率很高,但问题在于:模型完全看不到原文是什么,只能依赖这个抽象的向量。

这就像让你只看一张照片的缩略图来描述细节——很容易产生误解和臆测。

我们需要的是什么?

归根结底,我们需要一种「两全其美」的方法:既保留文本的可读形式、避免黑盒带来的幻觉,又能维持语义的完整性、避免碎片化导致的连贯性丧失。

这就需要找到一种合适的切分方式,能把文档拆解成满足以上两个需求的信息块,作为文档处理、大模型正式生成的基础。

二、核心方法

团队提出全新框架LingoEDU,核心是提升文档处理的可溯源性生成质量。该方法包含两个核心部分:以忠实度为导向的输入/输出设计,以及一套严格的自我修正数据合成流程。

LingoEDU方法示意图

训练方法侧:基于EDU的忠实度

忠实度意味着可溯源性。团队通过将生成过程完全锚定在预定义的每一个EDU上,来实现这一目标。

1.EDU表示策略:前置唯一索引标记,为模型创建参考坐标系

  • 选择句子作为EDU:不同于大多方案选用token或段落,该项目选择

    句子作为操作单元。

  • 与token相比,句子包含完整的语义命题,减少了碎片化;

  • 与段落相比,句子在不同文体中长度分布更稳定,便于模型建模。

  • 最关键的是,团队在输入Embedding中为每个EDU前置了唯一的索引标记,为模型创建了一个明确的参考坐标系。通过明确的位置表示,方便大模型进行可溯源生成,提升生成内容的忠实度。

2. 增强型结构生成:让模型「引用」而非「创作」

  • 指针机制:为了保证结构忠实于原文,项目采用了Augmented Markdown模式。模型被训练为输出指向EDU的“指针”,而不是重新生成文本内容。生成的节点格式如下:

  • **消除幻觉:**通过解码这个范围标记,可以将生成的结构无损地映射回原文的物理位置,从而有效消除了“位置幻觉”,从根本上消除了”凭空捏造”的可能。

3. 受限解码:从物理上阻止幻觉

为了进一步确保忠实度,项目在推理阶段施加了严格的词法约束。当模型生成范围标记中的数字时,可选的词表被严格限制为当前输入中实际存在的索引。

这就像给模型戴上了一副”有色眼镜”——它只能”看到”真实存在的选项,从物理上阻止了编造不存在引用的可能性。

训练数据侧:基于分解的可扩展数据合成

这一部分工作的核心作用是生产高质量的拆分数据用于模型训练。为了解决高质量、对齐的结构化数据稀缺的问题,项目引入了一个自动化流水线,其核心思想是在“角色”和“任务颗粒度”两个维度上进行分解。

1. 利用生成对抗的思想提升数据质量

  • 项目实施了一种迭代优化机制,引入两个不同的代理:
    a. 求解器(The Solver): 提出初步的EDU层级分解方案。
    b. 批评家(The Critic): 审计提案的语义连贯性和边界精确度,只提供口头反馈,不直接修改结构。
  • 这种对抗式协作迫使求解器重新思考模糊的边界,显著减少了在长文本场景下的性能退化。

2.双层任务分解(Bi-Level Task Decomposition)

核心作用:区分「结构信息」和「语义信息」,提升模型切分的准确性

  • 团队认识到,文档结构化其实涉及两类本质不同的子任务:
    a. 显性布局提取(Explicit Layout Extraction):这类任务确定性高,比如识别标题、列表、代码块等格式元素。模型主要依赖视觉和格式线索来构建骨架。
    b. 深度语义分割(Deep Semantic Segmentation):这类任务歧义性高,模型专注于大段文本内的语义转换,划分更细粒度的EDU。
  • 这种分离避免了端到端方法中常见的“指令冲突”(Instruction Conflict),即避免模型混淆视觉布局与语义逻辑,从而提升了训练数据的整体质量。

三、Lingo EDU让DeepSeek准确率相对提升51%

语义切分效果实验

为了验证LingoEDU的切分效果,团队构建了248篇文章*(包含web和pdf文件)组成的语义切分评测数据集,在这个数据集上,对比了本项目所采用的切分方法和各种基线方法的效果,主要指标是树编辑距离(TED,Tree Edit Distance)和文章级别准确率(DLA,Document Level Accuracy)*,同时针对成本和效率进行了对比。

实验结果显示,本项目的方法在切分准确性指标TED和DLA上显著超过所有基线模型,在成本和效率上也显著优于所有通用大模型的方法。

下游应用效果实验

相对线形的文本,精细化切分后的语义单元树能提供更加丰富的结构化信息和更加细粒度的信息管理和压缩,提升模型生成的准确性;同时由于信息表达的方式相对原始文本没有发生变化,可以方便地应用在各种下游任务上。

在有着中文网页检索天花板难度之称的测试集BrowseComp-ZH上,将各大模型的LLM API+RAG Research叠加EDU技术后,准确率全部提升,其中DeepSeek V3.1提升的幅度近一倍,达到18.7%

在有着“AGI终极试炼”之称的HLE*(Humanity’s Last Exam,人类最后的考试)*测评集上,官方数据对行业头部大模型准确率的测评结果如下:

适配EDU技术之后,各模型的准确率表现有明显提升,DeepSeek R1的提升幅度较大,从9.0%提升到13.6%,准确率相对提升51%。

同时,团队也在LongBench*(包括Multi-Doc QA、Summarization和Few-shot任务)*上进行了对比实验,以Gemini-2.5-Pro和GPT-4.1为代表模型,验证LingoEDU的效果,实验结果显示LingoEDU能够提升模型在LongBench所有摘要总结、多文档问答等子任务的效果。

四、核心价值

价值点一:解决行业核心痛点——根治“幻觉”,让AI生成更可信

  • 核心:直接回应当前大模型应用中最受诟病、也最影响商用的“幻觉”问题。LingoLingoEDU不是“缓解”,而是通过结构性变革**“根治”幻觉**。
  • LingoEDU*(基本语义单元)*技术,将文本拆解为一棵「语义树」。AI的每一次生成,都像在树上「按图索骥」,精准锚定到原文句子,从源头上杜绝了编造与偏离。
  • 可溯源的生成:每个结论都能追溯到原文的精确位置,让AI「引用」而非「重写」,保证100%的文本忠实度

价值点二:实现革命性效率——高效降本,实现智能“管理”

  • 核心:将超长文本从粗放的压缩升级为“智能信息管理”,提供更优的投入产出比
  • 传统的上下文处理是「粗放式压缩」,而LingoEDU进行的是「精细化信息管理」。LingoEDU提供的不是更短的文本,而是结构更清晰、语义更完整的「文本地图」
  • 实验证明,该项目所采用的方法在取得最高切分精度的同时,成本与效率显著优于调用通用大模型。这意味着客户能以更低的计算开销,获得更准确、更可靠的AI处理结果。
  • 这棵「语义树」是通用的能力增强器。无论是长文档问答、摘要总结还是复杂推理,它都能让现有模型的性能获得普适性提升

价值点三:彰显技术领导力——定义新标准,从“黑盒”走向“白盒”

  • 核心:将LingoEDU定位为一次重要的技术范式演进,引领行业走向可解释、可控制的AI。
  • AI应用正从「效果惊艳」走向「流程可信」。忠实度意味着可溯源性,LingoEDU正是这一理念的工程化实践,推动AI从「黑盒魔术」走向「白盒工程」。
  • 开创了「基于分解的可扩展数据合成」流程,通过「求解器-批评家」循环与双层任务分解,自动化生产高质量训练数据,解决了该领域数据稀缺的核心瓶颈,构建了坚实的技术壁垒。
  • LingoEDU不仅是一项技术,更是为下一代可信AI基础设施提供的一个关键模块。它定义了如何让大模型更可靠地理解与处理人类复杂知识的新标准。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1119334.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++中的String的常用函数用法总结

C 中 string 的常用函数用法总结&#xff08;全面实用版&#xff09; C 中字符串使用 std::string&#xff08;位于 <string> 头文件&#xff09;&#xff0c;它是标准库提供的强大、安全、易用的字符串类&#xff0c;远优于 C 风格的 char 数组。 1. 头文件与命名空间…

【python】错误SyntaxError: invalid syntax的解决方法总结

Python 中 SyntaxError: invalid syntax 错误解决方法总结 SyntaxError: invalid syntax 是 Python 最常见的语法错误&#xff0c;意思是“代码写法不符合 Python 语法规则”。编译器会在出错的那一行&#xff08;或上一行&#xff09;报错&#xff0c;并用 ^ 指向大致位置。 …

震惊!英伟达GPU贵1.86倍,性能却碾压AMD 15倍!大模型开发者必看算力真相,看完直接换卡?

为什么AI算力霸主永远是英伟达&#xff1f; 不算不知道&#xff0c;一算吓一跳&#xff1a;在英伟达平台每花一美元&#xff0c;获得的性能是AMD的15倍。 尽管英伟达卖的更贵&#xff0c;但只要买齐一套&#xff0c;就更省钱。 来自Signal65的一份最新详尽报告揭示了这个现实…

BERT模型实战:金融新闻去重系统全解析

&#x1f31f; BERT模型实战&#xff1a;金融新闻去重系统全解析 &#x1f4d6; 引言&#xff1a;为什么我们需要文本相似度检测&#xff1f; 想象一下&#xff0c;你正在监控金融市场的实时新闻。同一则消息"黄金价格今日上涨"可能被多家媒体以不同方式报道&#xf…

直流无感无刷电机方波控制全解析

直流无感无刷电机方波控制&#xff01;初始位置检测&#xff01; 1.代码方便修改和移植&#xff0c;不是库&#xff01; 2.方案&#xff1a;ADC和比较器&#xff0c;ADC检测完位置强拖&#xff0c;比较器检测完位置直接切闭环运行。 3.控制方式&#xff1a;开环/速度环/双闭环 …

强烈安利MBA必用8个一键生成论文工具测评

强烈安利MBA必用8个一键生成论文工具测评 2026年MBA论文写作工具测评&#xff1a;为什么你需要这份榜单&#xff1f; 随着MBA课程的深入&#xff0c;论文写作成为每位学生必须面对的重要任务。然而&#xff0c;从选题、资料收集到结构搭建、语言润色&#xff0c;整个过程往往耗…

深度测评10个AI论文写作软件,继续教育学生轻松搞定论文!

深度测评10个AI论文写作软件&#xff0c;继续教育学生轻松搞定论文&#xff01; AI 工具如何让论文写作更高效 在当前的学术环境中&#xff0c;继续教育学生面临着越来越高的论文写作要求。无论是本科、硕士还是博士阶段&#xff0c;撰写高质量的论文已成为一项不可或缺的任务。…

AI不再“一本正经胡说八道“!LLM+RAG融合技术实战指南,让大模型回答有据可查,小白也能轻松上手

LLM与RAG融合应用 一、 定义 LLM与RAG融合应用&#xff0c;是将检索增强生成&#xff08;Retrieval-Augmented Generation&#xff09; 技术与大语言模型&#xff08;Large Language Model&#xff09; 结合的AI方案&#xff0c;核心是让LLM在生成内容前&#xff0c;先从外部…

2026 届计算机毕业设计全流程指南(从 0 到答辩)

对于 2026 届计算机专业的同学来说&#xff0c;毕业设计往往是大学阶段最重要、也是最让人焦虑的一项任务。很多同学在真正开始之前&#xff0c;并不清楚毕业设计到底要做什么、该从哪里下手、每个阶段需要完成哪些内容&#xff0c;结果越拖越慌&#xff0c;最后被迫赶工。本文…

TreeUtil树构建工具-超好用工具

一、引言在软件开发中&#xff0c;树形结构是一种基础且重要的数据组织形式&#xff0c;广泛应用于组织架构、权限管理、商品分类、评论回复等场景。然而&#xff0c;将数据库中的扁平化数据转换为层级化的树形结构&#xff0c;一直是开发者面临的常见挑战。本文将深入探讨两种…

计算机专业毕设怎么选题?老师最容易通过的 20 个方向

对于计算机专业的同学来说&#xff0c;毕业设计的第一道难关不是写代码&#xff0c;而是选题。很多学生一开始就陷入误区&#xff1a;要么题目太大、实现难度过高&#xff0c;要么题目过于简单、缺乏“设计意义”&#xff0c;最终在开题阶段就被导师反复打回。实际上&#xff0…

AI 技术在英语培训中的应用

AI 技术已全面渗透英语培训的每一个环节。它不再仅仅是一个“查词工具”或“翻译插件”&#xff0c;而是进化成了具备情感感知能力、行业深度洞察力以及全天候陪练能力的“虚拟私教”。以下是 AI 技术在英语培训中的核心应用&#xff1a;1. 沉浸式对话与 Agent 智能体外教口语练…

Visual Studio 2022中配置cuda环境

一、前置条件&#xff08;必须先完成&#xff09; 在配置VS2022前&#xff0c;你需要先安装好以下软件&#xff0c;否则配置会失败&#xff1a; NVIDIA显卡驱动&#xff1a;确保你的电脑有NVIDIA独立显卡&#xff0c;且安装了最新/兼容的显卡驱动&#xff08;可通过NVIDIA控制…

从零到一全面掌握MySQL:安装配置、SQL详解与数据库实战理解

MySQL相关知识点可以通过点击以下链接进行学习一起加油&#xff01; 文章目录 MySQL与MariaDB&#xff1a;同源而生的数据库系统一、MySQL的安装与初步配置 1. 更新系统软件包列表2. 安装MySQL服务器3. 检查MySQL服务状态4. 首次登入MySQL5. 为root用户配置密码 步骤一&#xf…

MySQL保姆级教程:从安装部署到核心概念,快速上手避坑指南

MySQL相关知识点可以通过点击以下链接进行学习一起加油&#xff01; 文章目录 MySQL与MariaDB&#xff1a;同源而生的数据库系统一、MySQL的安装与初步配置 1. 更新系统软件包列表2. 安装MySQL服务器3. 检查MySQL服务状态4. 首次登入MySQL5. 为root用户配置密码 步骤一&#xf…

飞书多维表格基础操作

本文档旨在指导用户从零开始搭建一套包含客户管理、电联记录及快捷录入功能的 CRM 系统&#xff0c;涵盖 AI 字段应用、自动化工作流配置及仪表盘展示。1. 环境准备与设置 在开始操作前&#xff0c;请确保使用体验最佳的客户端环境。 安装客户端&#xff1a;下载并安装 Windows…

tcpdump抓包实战:命令行网络诊断利器

前言 Wireshark虽然好用&#xff0c;但服务器上通常没有图形界面。tcpdump是Linux下最常用的命令行抓包工具&#xff0c;排查网络问题、分析协议、定位连接异常都离不开它。 本文整理tcpdump的常用技巧&#xff0c;从基础语法到实际问题排查&#xff0c;配合真实场景案例。1. 基…

一篇搞定MySQL:从环境搭建到深入理解,高效入门数据库

MySQL相关知识点可以通过点击以下链接进行学习一起加油&#xff01; 文章目录 MySQL与MariaDB&#xff1a;同源而生的数据库系统一、MySQL的安装与初步配置 1. 更新系统软件包列表2. 安装MySQL服务器3. 检查MySQL服务状态4. 首次登入MySQL5. 为root用户配置密码 步骤一&#xf…

在线作图工具测评盘点:4款主流工具深度横评

随着数字化办公场景的深化&#xff0c;在线作图工具已成为技术团队、运营人员、创业者的必备生产力工具。相较于传统桌面设计软件&#xff0c;在线工具无需本地部署、支持跨设备协作、轻量化操作的优势愈发凸显。本次测评聚焦市场主流在线作图工具&#xff0c;以“专业实用性、…

网络延迟与丢包问题排查实战

前言 服务响应慢、接口超时、用户反馈卡顿&#xff0c;很多时候问题出在网络层面。延迟高、丢包、抖动这些问题看起来简单&#xff0c;排查起来却需要一套系统的方法。 本文整理网络延迟和丢包问题的排查思路和常用工具&#xff0c;配合实际案例。1. 基础检测工具 1.1 ping&…