【论文阅读】Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting - 实践

news/2025/10/5 19:36:01/文章来源:https://www.cnblogs.com/lxjshuju/p/19126937

Paper:https://arxiv.org/abs/2505.14059
Source code: https://github.com/bytedance/Dolphin
作者机构:字节跳动

背景

业务场景

企业材料大多数都以文本、图片、扫描件、电子表格、在线文档、邮件等文档的形式存在,例如:PDF文档(论文、财报等)、发票、收据等等,难以流通和处理,大量有价值的信息都被锁定在非结构化的文档中,无法充分发挥出数据价值,此外不同类型的文档包含的内容,以及内容展示形式也千差万别,这为非结构数据结构化进程增加了更多的不确定性和挑战。

相关工作

当前主流的文档解析主要是两个大的方向,

  1. Integration-based Document Parsing,此种解决方案整合了多个特有的模型于整个处理的pipeline中,例如:通过版面分析去识别表格,公式等,然后再使用对应的模型做相关的处理,主要的缺陷是:在系统复杂性、跨模型协调和对复杂文档布局的理解有限。
  2. Autoregressive Document Parsing,这种方案利用视觉语言模型利用自回归解码直接生成结构化的结果。其分为两种类型:
  3. General VLMs,这些模型受益于对不同视觉数据的大规模预训练,表现出强大的零样本能力。然而,它们在处理效率、专门的元素识别和布局结构保存方面经常面临挑战,特有是在处理具有复杂布局的长文档时。
  4. 这种类型。就是Expert VLMs,这些模型是专门为文档解析或理解任务设计和训练的。Dolphin就

方法论

模型的处理范围是两阶段文档图像解析,如下图:
在这里插入图片描述

推理样例:
在这里插入图片描述

总得来说:主要分为两个阶段,在给定处理的文档图片后,首先(第一阶段)做page级的处理,采用的是版面分析的思想但与之不同的是其获取的是具有阅读顺序的各种类型元素结果,然后(第二阶段)做元素级的处理,并行地使用特定元素类型的prompt进行提取,由于已经得到了第一阶段的阅读顺序以及位置信息(bbox)就很容易将第二阶段的结果进行整合了。
可见思路是比较清晰的,那么需要探索的是这两个阶段的效果是否符合预期,或者是work的比较good。

Page-level layout analysis

页面级别的版面分析是如何做的?
对于输入的图片,作者使用的是SwinTransformer作为整个模型的视觉编码器。注:输入图像会被调整大小并填充到固定的 H × W,保留其纵横比以避免文本失真。
Bounding box +就是版面分析结果的生成。使用版面分析的prompt,然后解码器输出目标结果。这里会涉及视觉特征和文本特征之间的对齐。作者使用的是mBart作为解码器。最后输出的就结果就element type。
附录中给出里承受的元素种类,如下:
在这里插入图片描述

Element-level Content Parsing

元素级别的内容分析又是如何做的呢?
结合各元素的类型使用各自的prompt并行地处理(这里很显然会带来更多资源的消耗,小心OOM)。利用的是各自bbox截取出当前类型的图片。
附录中也给出了对应元素类型的prompt,如下:

在这里插入图片描述

对应表格图片,模型的结果是html形式的。段落中如果包含公式,输出的结果是使用LaTeX进行表示的。

效果比对

Dolphin模型参数量在322M,并不是很大,相比于其他VLMs在体积上优势很大(就是快)。文中使用的评判指标是ED(edit distances)和FPS(frames per second)。也分别在页面级和元素级分别做了比较。
页面级的对比如下:

元素级的对比如下:

从罗列的指标上来看,在相关的测试数据指标是不错的。根据工作经验来说,在具体业务中最好还是需要做进一步测试和实验。
好了,模型的推理到此结束。下面该看看如何训这个模型的,也就是(1)如何构建训练预料;(2)如何提高小模型的指令跟随能力。

模型训练

训练数据

收集了超过3kw覆盖page-level,element-level的样本。可参见如下表格:

其在Mixed Documents中进行了具有阅读顺序的版面分析标注,即有元素类型、bbox以及阅读顺序。其它的资料主要是用于构建元素级别的提取训练语料。更多训练数据形式可参见原论文。

实验

模型层面:

  1. 视觉encoder使用的是Swin Transformer,window size:7, hierarchical structure([2, 2, 14, 2] encoder layers with [4, 8, 16, 32] attention heads),tips: 常见的通用VLM的视觉编码器通常应用的是基于vit的处理,后面对比一下其与Swin Transformer的差异;
  2. decoder使用的是mBart,囊括了10个hidden dimension的Transformer layer;
  3. 使用Donut的预训练权重进行初始化。

训练:

  1. 优化器AdamW;
  2. Learning rate 5e-5 cosine decay schedule;
  3. 机器:40张A100;
  4. 2 epochs with a batch size of 16 per device (gradient accumulation)
  5. 训练Loss:cross-entripy loss。

其他:

  1. 图片进行归一化操作,将图片保留纵横比(aspect ratio),将最长的边放大或缩小到896个pixels,然后进一步padding以达到896x896 pixels 的尺寸。

总结

从文中可以看出,尽管Dolphin表现出了出色的性能,但仍有一些限制需要进一步改进。首先,Dolphin主要承受标准水平文本布局,对于垂直文本如古代手稿等的支持有限。其次,虽然Dolphin能够实用地处理中英双语文档,但其多语言能力仍需扩展。此外,哪怕Dolphin依据并行元素解析完成了效率提升,但在文本行和表格单元格的并行处理方面仍有优化空间。最后,Dolphin的手写识别能力还应该进一步增强。
此外,由于文档的多样性和复杂性,还需要在工业界进行考验。项目也给出了在线试用的地址:http://115.190.42.15:8888/dolphin/。

对于类似的端到端的文档智能多模态模型还有如:GOT、SmolDocling等专门处理文档的多模态(大)语言模型。这些模型和方式为端到端的文档智能智能提供了很多解除思路,为后续的发展奠定了基础,但个人试用起来,感觉整体效果还需有进一步提升。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/928650.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025 --【J+S 二十连测】-- 第二套 总结

总结 T1 T2 T3 很快就写出来了,没什么大问题。 T4 T5 没有写出来,下来有个非常巧妙的思路。 题解 T1 我们只需要横纵坐标最小的,最大的那些点。然后把它们全部照在一起,那就可以了。 代码 #include<bits/stdc++…

2025 蒸发器厂家最新企业品牌推荐排行榜,江苏纵横携手知名品牌,彰显蒸发器公司行业影响力

在当前的工业生产领域,蒸发器作为重要的设备,广泛应用于食品发酵、化工、医药、环保等多个行业。然而,市场上蒸发器厂商数量众多,产品质量参差不齐,技术水平也存在较大差异,给企业在选购时带来了诸多困扰。部分厂…

如何将 WSL 的 Ubuntu-24.04 迁移到其他电脑 - 详解

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

题解:Luogu P11976 [KTSC 2021] 通信网络 / communication

一些约定 下文中的 \(x\) 的祖先,都指位于 \(\bm{fa_x}\) 到根节点路径上的点(也就是不包括 \(x\))。 对于无向图 DFS 生成树中的一条返祖边,我们称深度较浅的那端为上端点,深度较深的那端为下端点。 题意 对于一…

弦振动方程

弦振动方程 参考:https://chat.deepseek.com/a/chat/s/36c8bd34-0600-4a94-be96-8363d028df9d

理论构建尝试整理

通过脑机接口的电信号实时训练神经网络模型 研究方向:生成式认知主体 导论: 自从1947的 但至少在我看来现如今的人工智能发展方向完全是走错了路线 根据图灵测试的逻辑来讲 著名的图灵测试诞生,按照“人工智能之父”…

应用安全 --- 安卓安全 之 调用隐藏

应用安全 --- 安卓安全 之 调用隐藏可能会将调用的so中方法写入jnionload中动态注册同时将函数字符串加密存储这个问题很常见,有几种可能的原因。让我帮你分析一下: 可能的原因和解决方案 1. 函数名被混淆或压缩bash…

电子商城网站开发平面广告设计素材网

PTA 排队“夹塞”是引起大家强烈不满的行为&#xff0c;但是这种现象时常存在。在银行的单窗口排队问题中&#xff0c;假设银行只有1个窗口提供服务&#xff0c;所有顾客按到达时间排成一条长龙。当窗口空闲时&#xff0c;下一位顾客即去该窗口处理事务。此时如果已知第i位顾客…

淘宝客网站哪个好克隆视厅网站怎么做

人工智能和芯片供应商 XMOS 宣布与嵌入式音频软件专家 DSP Concepts 建立合作伙伴关系。该合作协议将允许音频开发人员将 XMOS 的高度确定性、低延迟的 xcore.ai 平台与 DSP Concepts 的 Audio Weaver 软件结合起来。该软件使用户能够利用多核算力以图形方式设计和调试音频和语…

商城网站开发视频邯郸网站设计邯郸网站制作

简介&#xff1a; 《实时数仓入门训练营》由阿里云研究员王峰、阿里云资深技术专家金晓军、阿里云高级产品专家刘一鸣等实时计算 Flink 版和 Hologres 的多名技术/产品一线专家齐上阵&#xff0c;合力搭建此次训练营的课程体系&#xff0c;精心打磨课程内容&#xff0c;直击当下…

2025聚合硫酸铁厂家最新企业品牌推荐排行榜,工业聚合硫酸铁,混凝剂聚合硫酸铁,固态聚合硫酸铁,粉末聚合硫酸铁,硫酸亚铁公司推荐!

当前聚合硫酸铁行业发展迅速,市场上生产厂家数量众多,但质量参差不齐,给采购方带来诸多选择难题。部分厂家存在生产工艺落后、产品纯度不足的问题,导致其生产的聚合硫酸铁在水处理等应用场景中效果不佳,不仅影响水…

2025成型机厂家最新企业品牌推荐排行榜,冷弯成型机,卷帘门成型机,卷闸门成型机,彩钢瓦成型机,货架成型机推荐!

在当前金属加工行业快速发展的背景下,冷弯成型机作为关键生产设备,其质量与性能直接影响企业的生产效率和产品品质。然而,市场上成型机厂家数量众多,实力参差不齐,给企业选购带来诸多困扰。部分厂家缺乏核心技术,…

基于springboot的家政服务预约系统 - 指南

基于springboot的家政服务预约系统 - 指南pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "…

天水市秦州区作风建设年网站wordpress文章图片大小

在使用proteus的时候&#xff0c;有时候你会发现点击调试开始运行后&#xff0c;串口虚拟终端没有自动弹窗的问题&#xff0c;其实照成这种现象的原因是你在使用的过程中移动了器件位置或者是对整个视窗使用鼠标滚动进行缩放了&#xff0c;如果要重新弹窗则需要进行以下操作: …

网站设计人员就业要求正邦设计怎么样

2024年2月10日力扣题目训练 2024年2月10日力扣题目训练551. 学生出勤记录 I557. 反转字符串中的单词 III559. N 叉树的最大深度241. 为运算表达式设计优先级260. 只出现一次的数字 III126. 单词接龙 II 2024年2月10日力扣题目训练 2024年2月10日第十七天编程训练&#xff0c;今…

手机网站开发工具影视网站建设需要学什么

来源&#xff1a;股权投资论坛目录一、隐形冠军的概念二、隐形冠军的四个特征三、隐形冠军为何隐形四、隐形冠军到底有多牛五、如何成为隐形冠军六、中国隐形冠军多吗1隐形冠军的概念“隐形冠军”这个概念是赫尔曼西蒙教授提出的。1986年&#xff0c;他在研究德国出口数据时发现…

2025 年 PP 管厂家最新推荐榜:甄选 pp 风管,PP 喷淋塔,pp 洗涤塔,pp 通风管道优质公司!

引言当前 PP 管市场供需两旺,但采购痛点愈发凸显。部分厂家为压缩成本选用劣质原料,导致产品耐腐、抗老化性能不达标,使用中频繁出现破裂渗漏,既造成经济损失又埋下安全隐患。市场上厂家水平参差不齐,多数缺乏专业…

解密并下载受DRM保护的MPD(DASH流媒体)加密视频 - 教程

解密并下载受DRM保护的MPD(DASH流媒体)加密视频 - 教程pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas…

在PyCharm中运行 wandb.login();

在PyCharm中运行 wandb.login()wandb: ERROR api_key not configured (no-tty). call wandb.login(key=[your_api_key])Traceback (most recent call last): File "E:/assificnLi-v2.py", line 60, in <…

网站管理员在哪里浙江网站建设而

我们总是希望MySQL能够获得更高的查询性能&#xff0c;最好的办法是弄清楚MySQL是如何优化和执行查询的。一旦理解了这一点&#xff0c;就会发现&#xff1a;很多的查询优化工作实际上就是遵循一些原则让MySQL的优化器能够按照预想的合理方式运行而已。当向MySQL发送一个请求的…