程序员福音!轻量级文本公式识别模型UniRec-0.1B:性能SOTA+9倍速,代码已开源!

背景

2025年这一年智能文档方面得到了快速发展,发布了DeepSeekOCR,QwenVL,HunyuanOCR,PaddleVL-OCR,Monkey-OCR,MinerU,Dolphin等作品。虽然这些产品都取得了不错的效果,但在一些业务场景中想落地还是有一段距离,比如说性能。

这个文章比较吸引人的是0.1b、sota。相比于其他工作(IBM的granite-docling-258M服务与docling,不通用)这个模型已经非常轻量了。UNIREC-0.1B作者分析了OmniDocBench以及现有模型推理耗时情况,如下:

也就是说:文本、公式这类纯文本类型数据占据了主要的内容,并且在推理过程也非常耗时。这篇论文的主要贡献如下:

  1. 构建了UniRec40M,其中包含4000万条中英文多层级文本-公式样本,填补了统一文本与公式识别领域的数据空白。
  2. 提出UniRec-0.1B,一个轻量级的统一识别模型。该模型通过引入分层监督训练和语义解耦分词器,解决了细粒度与模态混合带来的挑战。
  3. 大量评估表明,UniRec-0.1B在各种文本和公式识别任务中的准确率优于或持平于领先的大型视觉语言模型,同时实现了2至9倍的推理速度提升。

方法论

模型结构方式采用的是主流的方案encoder-decoder结构,如下图:

模型结构源码: https://github.com/Topdu/OpenOCR/blob/main/openrec/modeling/transformers_modeling/modeling_unirec.py[3]

图像编码器使用的是:FocalNet,从源码来看使用的是FocalSVTR。支持动态分辨率,但最大宽度和高度分别为:960像素、1480像素。对于图像 有:

视觉特征维度为 . 然后使用将 展平为一些的视觉token,如下:

文本和公式的Label采用了一种分层监督的token定义,还采用了语义解耦的分词器( Semantic-Decoupled Tokenizer,SDT)来分离文本和公式,最后得到的token序列如下:

  • 标识句子的开始;
  • 最后一个标签标识序列的结束;
  • 标识序列中token的数量。

使用一个Text Embeeding层将每个文本token转化为一个向量,有: 的文本矩阵。

解码器使用的是: M2M100这个模型。包含了6个Transformer 带有cross-attention模块的层,每层hidden size为 ,以及有 个attention head。那么在给定的文本Embedding 以及视觉特征 ,然后解码器就可以在因果掩码 的约束下自回归的生成,如下:

训练和推理就可以常规的大模型操作一致了。特殊的操作有:分层监督、语义解耦分词器

分层监督训练

主要面向的问题是文本和公式之间的差异。其在数据集中引入了行级和段落级别的监督token为 <|ln|> 、<|pn|>,分别标识段落内的换行,以及段落的结束。在推理的过程中可以有效地还原文本的换行表示。

语义解耦分词器

依然是现有的tokenizer将文本和公式混杂在一块,而公式中的特定标识与text中的表示具有不同的语义区分。对于当前使用比较小的模型,为了减少给模型引入不必要的学习复杂性,作者在纯文本上训练一个分词器,在数学公式上训练了另外一个分词器,然后将公式产生的token作为特殊token集成到文本分词器中,排除那些已存在于文本中的token,进而实现语义解耦。

训练数据构建

UniRec40M Dataset的构建,主要如下:

结果对比

效果对比

在自建的benchmark:UniRec-Bench上的对比结果:

在OmniDocBench上的对比:

其中比较有意思的点是,在替换条MinerU2.5,PaddleOCR-VL中的文本和公式识别模块(其他模块:如版面分析,表格识别使用原来的能力),其效果有所提升。

性能对比

总得来说,毕竟这个模型参数量处于0.1B的级别,在都是自回归语言模型的情况下,参数小的话在性能上是比较占据优势的。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1129015.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Z-Image-Turbo老年认知训练:记忆唤醒图像个性化生成

Z-Image-Turbo老年认知训练&#xff1a;记忆唤醒图像个性化生成 背景与需求&#xff1a;AI技术赋能老年认知健康干预 随着全球老龄化趋势加剧&#xff0c;老年人群的认知衰退问题日益受到关注。阿尔茨海默病、轻度认知障碍&#xff08;MCI&#xff09;等神经退行性疾病不仅影响…

揭秘AI绘画黑科技:如何用预置镜像10分钟搭建专属头像生成器

揭秘AI绘画黑科技&#xff1a;如何用预置镜像10分钟搭建专属头像生成器 最近朋友圈里AI生成的头像越来越多了吧&#xff1f;从二次元风格到写实肖像&#xff0c;各种创意层出不穷。作为一个数字艺术爱好者&#xff0c;我也跃跃欲试&#xff0c;结果刚准备动手就被PyTorch环境配…

告别脏数据:基于MGeo的地址清洗流水线搭建

告别脏数据&#xff1a;基于MGeo的地址清洗流水线搭建实战 在日常数据处理工作中&#xff0c;地址信息的标准化一直是个令人头疼的问题。你是否也遇到过"海淀区"和"海淀區"这样的简繁差异导致的数据混乱&#xff1f;本文将带你使用MGeo大模型搭建一个智能地…

程序员必学!Flamingo多模态大模型架构揭秘:冻结主干+门控注入,AI“降维打击“!

1. 背景 1.1 问题与挑战 少样本/零样本学习能力的缺失&#xff1a;现有的主流方法是“预训练微调”范式&#xff0c;但成功微调通常需要成千上万、高成本的标注数据。如何构建能仅用几个&#xff08;few-shot&#xff09;甚至零个&#xff08;zero-shot&#xff09;标注示例就…

MGeo模型对少数民族地区地名的适配能力

MGeo模型对少数民族地区地名的适配能力 引言&#xff1a;为何关注少数民族地区地名匹配&#xff1f; 在中文地址理解场景中&#xff0c;标准汉语地名的处理已相对成熟&#xff0c;但面对我国多民族聚居区广泛存在的非汉语音译地名、双语并行标识、方言书写差异等复杂情况&#…

异常检测:图像生成服务监控与告警系统搭建指南

异常检测&#xff1a;图像生成服务监控与告警系统搭建指南 作为一名长期与AI服务打交道的运维人员&#xff0c;我深刻理解流量高峰时服务异常带来的困扰。本文将分享如何为图像生成服务搭建一套轻量级监控与告警系统&#xff0c;帮助你实时掌握模型服务的健康状态和性能指标。 …

实战经验:Z-Image-Turbo在教育PPT插图制作中的应用

实战经验&#xff1a;Z-Image-Turbo在教育PPT插图制作中的应用 引言&#xff1a;AI图像生成如何赋能教学内容创作 在现代教育场景中&#xff0c;高质量的视觉素材已成为提升PPT表现力和学生理解效率的关键因素。然而&#xff0c;传统获取插图的方式——无论是网络搜索、版权图…

如何验证地址匹配效果?MGeo输出结果可视化方法

如何验证地址匹配效果&#xff1f;MGeo输出结果可视化方法 引言&#xff1a;从地址模糊匹配到精准对齐的工程挑战 在电商、物流、本地生活等业务场景中&#xff0c;地址数据的标准化与实体对齐是构建高质量地理信息系统的前提。然而&#xff0c;中文地址存在大量别名、缩写、语…

M2FP人体解析部署教程:3步实现多人语义分割,CPU版免配置一键启动

M2FP人体解析部署教程&#xff1a;3步实现多人语义分割&#xff0c;CPU版免配置一键启动 &#x1f4d6; 项目简介 在计算机视觉领域&#xff0c;人体解析&#xff08;Human Parsing&#xff09; 是一项关键的细粒度语义分割任务&#xff0c;旨在将人体分解为多个语义明确的部…

20260108_142519_AGI(十二):RAG技术基础及企业级RAG系统打造

一、大模型应用开发的三种模式 提示工程&#xff08;Prompt Engineering&#xff09;、RAG&#xff08;检索增强生成&#xff09;和微调&#xff08;Fine-tuning&#xff09;分别代表了不同维度的优化手段。 提示工程 (Prompt Engineering)&#xff1a;不改变模型&#xff0c…

成本对比:自建GPU服务器 vs 云服务运行MGeo的全方位分析

成本对比&#xff1a;自建GPU服务器 vs 云服务运行MGeo的全方位分析 作为计划长期使用MGeo地理文本处理模型的中小企业IT负责人&#xff0c;您可能正在纠结&#xff1a;是自建GPU服务器更划算&#xff0c;还是直接使用云服务更省心&#xff1f;本文将带您全面分析两种方案的优劣…

盐铁论这本书是讲什么的

《盐铁论》这部书&#xff0c;非文学之瑰宝&#xff0c;乃经济、政治、思想斗争之活化石。它记录的是一场决定汉帝国命运、乃至塑造两千年中国治理模式的大辩论。要读懂它&#xff0c;不能只观文字&#xff0c;须听其声外之音&#xff0c;察其势中之力。一、 背景&#xff1a;一…

科技与工艺的融合:注浆与压裂技术的实践应用研究

pfc 多点注浆&#xff0c;多孔压裂&#xff0c;注浆劈裂&#xff0c;沥青混合料压裂最近在搞岩土工程数值模拟&#xff0c;发现PFC&#xff08;颗粒流程序&#xff09;真是个好东西。这玩意儿对多点注浆的模拟简直就像给地层做微创手术——用Python写个循环控制注浆管位置&…

艺术策展人视角:Z-Image-Turbo对当代艺术的影响

艺术策展人视角&#xff1a;Z-Image-Turbo对当代艺术的影响 引言&#xff1a;当AI成为艺术创作的“共谋者” 在当代艺术语境中&#xff0c;技术早已不再是工具性的存在&#xff0c;而是逐渐演变为一种创作主体性延伸。阿里通义推出的Z-Image-Turbo WebUI图像生成模型&#xf…

RLVR强化学习训练成本暴降98%!12种PEFT方法大PK,结果让人意外...

一、研究背景&#xff1a;当LoRA遇上强化学习&#xff0c;谁才是最强王者&#xff1f; 最近大语言模型&#xff08;LLM&#xff09;在数学推理等复杂任务上的表现越来越惊艳。特别是"基于可验证奖励的强化学习"&#xff08;Reinforcement Learning with Verifiable …

Z-Image-Turbo停止生成任务的方法:刷新页面即可中断

Z-Image-Turbo停止生成任务的方法&#xff1a;刷新页面即可中断 阿里通义Z-Image-Turbo WebUI图像快速生成模型 二次开发构建by科哥 运行截图 核心提示&#xff1a;在使用阿里通义Z-Image-Turbo WebUI进行AI图像生成时&#xff0c;若需立即终止正在执行的生成任务&#xff0c…

Z-Image-Turbo多风格测试:快速搭建评估环境

Z-Image-Turbo多风格测试&#xff1a;快速搭建评估环境 作为一名艺术指导&#xff0c;我经常需要评估不同AI工具在多种艺术风格下的表现。传统方法需要手动配置环境、安装依赖、调试参数&#xff0c;过程繁琐耗时。而Z-Image-Turbo的出现彻底改变了这一局面——这款由阿里巴巴通…

AI生成图像模糊?Z-Image-Turbo分辨率优化四步法

AI生成图像模糊&#xff1f;Z-Image-Turbo分辨率优化四步法 阿里通义Z-Image-Turbo WebUI图像快速生成模型 二次开发构建by科哥 在AI图像生成领域&#xff0c;分辨率不足导致的模糊问题是用户最常遇到的痛点之一。尽管阿里通义推出的 Z-Image-Turbo WebUI 模型以“快速生成”著…

工业自动化中的CRC校验实践指南

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 创建一个专为工业通信设计的CRC校验工具&#xff0c;重点支持Modbus RTU协议使用的CRC-16算法。功能要求&#xff1a;1&#xff09;模拟Modbus数据帧生成&#xff1b;2&#xff09…

MGeo模型在气象观测站地理位置归并中的应用

MGeo模型在气象观测站地理位置归并中的应用 引言&#xff1a;气象数据整合中的地址归一化挑战 在气象信息系统建设中&#xff0c;来自不同区域、不同时期的气象观测站数据往往存在严重的元数据不一致性。尤其在站点名称和地址描述上&#xff0c;同一物理站点可能因录入习惯、行…