文档智能SOTA被刷爆,DocVQA榜单首次突破90大关

文档智能(DI, Document Intelligence)主要指对于网页、数字文档或扫描文档所包含的文本以及丰富的排版格式等信息,通过人工智能技术进行理解、分类、提取以及信息归纳的过程。文档智能技术广泛应用于金融、保险、能源、物流、医疗等行业,常见的应用场景包括财务报销单、招聘简历、企业财报、合同文书、动产登记证、法律判决书、物流单据等多模态文档的关键信息抽取、文档解析、文档比对等。随着企业数字化、信息化进程不断加速,这类需求越来越强烈,工业界急需前沿技术与易用工具来解决这些问题。百度开源的文心ERNIE-Layout以及自然语言处理开发工具PaddleNLP来得很及时,强烈安利!

文心ERNIE-Layout

重磅开源

近期,百度文档智能团队基于多语言跨模态布局增强的文档智能大模型文心ERNIE-Layout,刷新了五类11项文档智能任务效果。

17aeedf7f758006a859c5776e5829fb3.png

▲ 百度文档智能技术指标

继文心ERNIE-Layout1.0后,文心ERNIE-Layout再次登顶DocVQA榜单,并成为榜单首个突破90分大关技术方案[1]。同时,基于文心ERNIE-Layout的开放文档抽取问答模型DocPrompt, 首次以文档智能模型登顶网页问答榜单WebSRC[2]

d489d96a196f97604f57612c1f208b60.png

▲ DocVQA、WebSRC榜单

飞桨自然语言处理模型库PaddleNLP第一时间为大家开源了文档智能十一边形战士系列模型。

文心ERNIE-Layout多语言跨模态布局增强文档智能大模型 

文心ERNIE-Layout依托文心ERNIE,基于布局知识增强技术,融合文本、图像、布局等信息进行联合建模,能够对多模态文档(如文档图片、PDF文件、扫描件等)进行深度理解与分析,为各类上层应用提供SOTA模型底座。

  • 前往GitHub获取详情:

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-layout

欢迎STAR收藏,跟踪最新开源工作

DocPrompt开放文档抽取问答模型(基于ERNIE-Layout)

文档智能技术广泛应用于金融、保险、能源、物流、医疗等行业,常见的应用场景包括各类多模态文档的关键信息抽取、文档解析、文档比对等。基于前沿的文档智能技术,PaddleNLP正持续开源一系列产业实践范例,解决开发者们实际应用难题。

  • 前往GitHub获取详情:

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/document_intelligence

本次重磅开源的DocPrompt开放文档抽取问答模型,以文心ERNIE-Layout为底座,可精准理解图文信息,推理学习附加知识,准确捕捉图片、PDF等多模态文档中的每个细节。通过PaddleNLP Taskflow,仅用三行Python代码即可快速体验DocPrompt功能。

from paddlenlp import Taskflow
docprompt = Taskflow("document_intelligence", model='docprompt')
docprompt({"doc": "./invoice.jpg", "prompts": ["发票金额", "左侧抬头日期是什么?"]})

DocPrompt零样本问答效果非常强悍!能够推理学习空间位置语义,准确捕捉跨模态文档信息,轻松应对各类复杂文档。

986851f0fccb90e1e672f477e9a92f5b.png

▲ 可支持空间位置语义理解

ddd59bd350e3843186d4c8f8f1ea66f1.png

▲ 可准确捕捉图文混排多模态语义

针对网页、表格和试卷等复杂布局文档,DocPrompt也能结合上下文及表头信息,给出精准答案。

864b337bc843a30e27d3f0573b4fff09.png

▲ 网页理解优于半结构化抽取方案

5cabacc56eec1810591630d298384b20.png

▲ 支持多维度无框线表格问答

3356f58d5c3001b039e270288016272e.png

▲ 试卷解析问答

以文心ERNIE-Layout为底座的DocPrompt,还具备跨语言多语种的抽取亮点!

4fe45fa16b68b161663da4814219eb39.png

▲ 支持10+语种的多语言提问

推荐大家访问Huggingface 文心ERNIE-Layout空间,快速体验DocPrompt带来的惊喜!

https://huggingface.co/spaces/PaddlePaddle/ERNIE-Layout

0a95f40484d93234ee1b67b4619841bf.png

▲ Huggingface 文心ERNIE-Layout空间

直播课预告

10月25日,文心ERNIE-Layout论文作者,百度高工将带来直播讲解,介绍文档智能的前沿技术,深度解读多语言跨模态布局增强文档智能大模型文心ERNIE-Layout与开放文档抽取问答模型DocPrompt,并带来基于PaddleNLP的实践范例。欢迎扫码入群,获取直播课程链接。入群还有更多福利:

  • 与百度飞桨官方技术团队深度交流

  • 官方团队整理的10GB NLP学习大礼包

  • TextMind智能文档分析平台合作咨询

fa25d2ced0b9a3b620f80a87a4596077.jpeg

f51ab8b90819d9af75d44061fc392ad2.jpeg

核心技术方案

文心ERNIE-Layout以文心ERNIE为底座,融合文本、图像、布局等信息进行跨模态联合建模,创新性引入布局知识增强,提出阅读顺序预测、细粒度图文匹配等自监督预训练任务,升级空间解耦注意力机制。输入基于VIMER-StrucTexT大模型[3]提供的OCR结果,在各数据集上效果取得大幅度提升,相关工作已被EMNLP 2022 Findings 会议收录[4]。

a345fbce318abb0cd50acbe82ee28a47.png

▲ 文心ERNIE-Layout 技术框架

文心ERNIE-mmLayout为进一步探索不同粒度元素关系对文档理解的价值,在文心ERNIE-Layout的基础上引入基于GNN的多粒度、多模态Transformer层,实现文档图聚合(Document Graph Aggregation)表示。最终,在多个信息抽取任务上以更少的模型参数量超过SOTA成绩,相关论文被ACM MM 2022会议收录[5]

2f4d4ae8c9a47fa73146fe0b5f2255e2.jpeg

▲ 文心ERNIE-mmLayout 技术框架

文档智能技术体系

与应用平台

文档智能(DI, Document Intelligence)主要指对于网页、数字文档或扫描文档所包含的文本以及丰富的排版格式等信息,通过人工智能技术进行理解、分类、提取以及信息归纳的过程[6]。百度文档智能技术体系立足于强大的NLP与OCR技术积累,以多语言跨模态布局增强文档智能大模型文心ERNIE-Layout为核心底座,结合图神经网络技术,支撑文档布局分析、抽取问答、表格理解、语义表示多个核心模块,满足上层应用各类文档智能分析功能需求。

d2ea4bae344dde27e8e0cd5f3f72b787.png

▲ 文档智能技术体系

百度TextMind智能文档分析平台[7]可提供包括文档信息抽取、文本内容审查、企业文档管理、文档格式解析、文档内容比对等全方位一站式的文档智能服务,已形成一套完整的企业文档场景化解决方案,满足银行、券商、法律、能源、传媒、通信、物流等不同行业和场景的文档处理需求,以AI助力企业的办公智能化升级和数字化转型。

开源地址

https://github.com/PaddlePaddle/PaddleNLP

【更多精彩直播推荐】

dd4ec9fbecae9d2ed298668c95b35ef7.jpeg

*本文封面图背景由文心ERNIE-ViLG大模型生成,欢迎点击参考链接[8],体验更多百度AI开放能力。

参考链接

[1]DocVQA榜单

https://rrc.cvc.uab.es/?ch=17&com=evaluation&task=1 

[2]网页问答榜单WebSRC

https://x-lance.github.io/WebSRC/index.html

[3]VIMER-StrucTexT

https://github.com/PaddlePaddle/VIMER#structext

[4]文心ERNIE-Layout: Layout-Knowledge Enhanced Multi-modal Pre-trainingfor Document Understanding 

https://arxiv.org/abs/2210.06155

[5]文心ERNIE-mmLayout: Multi-grained MultiModal Transformer for Document Understanding

https://arxiv.org/abs/2209.08569

[6]崔磊,徐毅恒,吕腾超,韦福如. 文档智能: 数据集、模型和应用[J]. 中文信息学报, 2022, 36(6): 1-19.

[7]百度AI开放平台——智能文档分析平台

https://ai.baidu.com/tech/nlp/Textanalysis

[8]文心ERNIE-ViLG

https://wenxin.baidu.com/moduleApi/ernieVilg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/476804.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

react 遍历对象_React 源码系列 | React Children 详解

本文基于 React V16.8.6,本文代码地址测试代码 源码讲解React 中一个元素可能有 0 个、1 个或者多个直接子元素,React 导出的 Children 中包含 5 个处理子元素的方法。map 类似 array.mapforEach 类似 array.forEachcount 类似 array.lengthtoArrayonlyR…

程序员面试金典 - 面试题 16.19. 水域大小(BFS/DFS)

1. 题目 你有一个用于表示一片土地的整数矩阵 land,该矩阵中每个点的值代表对应地点的海拔高度。 若值为0则表示水域。由垂直、水平或对角连接的水域为池塘。 池塘的大小是指相连接的水域的个数。 编写一个方法来计算矩阵中所有池塘的大小,返回值需要从…

自定义组件--创建mxml组件

创建简单的mxml组件 Example components/CountryComboBox.mxml <?xml version"1.0" encoding"utf-8"?> <mx:ComboBox xmlns:mx"http://www.adobe.com/2006/mxml"> <mx:dataProvider> <mx:String>United States</mx…

19位算法工程师总结:机器学习项目成功落地的三条秘诀

文 | 天于刀刀又是一年金九银十&#xff0c;前几天小编刀刀在一次电话面试过程中被HR 的一个问题问得差点闪了腰。当时情况是这样的&#xff0c;在流利地介绍完之前的几个项目后&#xff0c;招聘小姐姐打断了我后续的&#xff08;忽悠&#xff09;节奏&#xff0c;郑重其事地反…

nodejs 获取cpu核心数量_用 NodeJS 充分利用多核 CPU 的资源[每日前端夜话0xCB]

每日前端夜话0xCA每日前端夜话&#xff0c;陪你聊前端。每天晚上18:00准时推送。正文共&#xff1a;1558 字预计阅读时间&#xff1a;7 分钟作者&#xff1a;Nick Major翻译&#xff1a;疯狂的技术宅来源&#xff1a;coderrocketfuel介绍单个 Node.js 程序的实例仅在一个线程上…

程序员面试金典 - 面试题 16.20. T9键盘(数组)

1. 题目 在老式手机上&#xff0c;用户通过数字键盘输入&#xff0c;手机将提供与这些数字相匹配的单词列表。 每个数字映射到0至4个字母。给定一个数字序列&#xff0c;实现一个算法来返回匹配单词的列表。 你会得到一张含有有效单词的列表。映射如下图所示&#xff1a; 示…

胃部不适,原来好辛苦!

这几天胃部都感觉不舒服&#xff0c;那种感觉很难形容&#xff0c;总之就非常辛苦&#xff0c;无胃口&#xff0c;浑身都不舒服&#xff0c;可能是之前几天早餐没吃饱&#xff0c;有几天很晚才入睡空着肚子的缘故吧&#xff0c;原来胃部不适是如此辛苦的&#xff0c;怕怕&#…

重磅!顶级一区期刊官宣:明年起将不再拒稿!

源 | 青塔学术、量子位等颠覆科学出版的“游戏规则”?10月20日&#xff0c;国际著名生物学综合期刊eLife官方宣布了一个重大决定&#xff1a;从2023年1月31日起&#xff0c;所有经过同行评审的文章&#xff0c;eLife都不会作出接受/拒绝的决定&#xff0c;而是直接发布在其网站…

EM(期望极大化)算法及其推广

文章目录1. EM算法2. EM算法收敛3. EM算法应用4. EM算法的推广5. sklearn.mixture.GaussianMixture概率模型有时既有观测变量&#xff08;observable variable&#xff09;&#xff0c;又有隐变量或潜在变量&#xff08;latent variable&#xff09;如果概率模型的变量都是观测…

GridView 中添加删除确认提示框

在GridView中我们可以直接添加一个CommandField删除列来删除某行信息。但为了避免误操作引起的误删除&#xff0c;在删除操作者让操作者再确认下&#xff0c;完后再进行删除。 首先我们给我们的GridView 添加一个模板列&#xff0c;如下&#xff1a; <asp:TemplateField He…

终于有人喊出来:论文一稿多投是作者的合法权利!

文 | 马建平&#xff0c;三峡大学学报编辑源 | 现代出版一稿多投目前已演变为许多作者一种常态化的投稿方式。针对一稿多投现象&#xff0c;舆论似乎是一边倒的反对和谴责之声&#xff0c;认为它浪费了极为稀缺的出版资源&#xff0c;扰乱了报刊社正常的出版秩序&#xff0c;是…

python中pop用法_Python dict pop()用法及代码示例

Python语言为几乎所有容器(无论是列表容器还是集合容器)指定了pop()。这篇特别的文章着重说明Python词典提供的pop()方法。这种方法对于经常处理字典的程序员很有用。 用法&#xff1a;dict.pop(key, def) 参数&#xff1a; key:必须返回并删除其键值对的键。 def:如果指定的键…

桩训日记

2007年2月7日 弄了一天的模拟练习&#xff0c;挺累的&#xff0c;明天估计是练习 起步停车2007年2月8日 上午起步停车&#xff08;年龄挺大的李教练&#xff09;&#xff0c;临近中午开始倒库&#xff08;挺帅的尹教练&#xff09;&#xff0c;下午继续倒库&#xff0c;基本茫然…

LeetCode 912. 排序数组(10种排序)

文章目录1. 题目2. 解题2.1 插入排序2.2 冒泡排序2.3 选择排序2.4 希尔排序2.5 归并排序2.6 快速排序2.7 堆排序2.8 计数排序2.9 桶排序2.10 基数排序3. 复杂度表1. 题目 给你一个整数数组 nums&#xff0c;将该数组升序排列。 示例 1&#xff1a; 输入&#xff1a;nums [5,…

顶会审稿人谈论文中稿“潜规则”

科研论文&#xff0c;不同于毕业论文之处在于——科研论文是根据有价值的生产实践或科研课题写作的&#xff0c;具有原创性和独到性的论文。在学术界&#xff0c;有人写论文是为了升硕士&#xff0c;升博士或者研究生博士顺利毕业。毕竟在学术界论文是工作和科研水平的直观体现…

python asyncio_如何使用Python中的asyncio?

【51CTO.com快译】Python的异步编程功能(简称async)让你可以编写不必等待独立任务完成就可以完成更多工作的程序。Python附带的asyncio库为你提供了使用async处理磁盘或网络I/O、无需其他方面等待的工具。 asyncio提供了两种处理异步操作的API&#xff1a;高级和低级。高级API用…

程序员面试金典 - 面试题 08.05. 递归乘法(位运算)

1. 题目 递归乘法。 写一个递归函数&#xff0c;不使用 * 运算符&#xff0c; 实现两个正整数的相乘。 可以使用加号、减号、位移&#xff0c;但要吝啬一些。 示例1:输入&#xff1a;A 1, B 10输出&#xff1a;10示例2:输入&#xff1a;A 3, B 4输出&#xff1a;12提示: …

最新整理完成

终于把主站做完了&#xff0c;用了一个小型的cms系统&#xff0c;因为买不起asp.net的空间&#xff0c;而且因为买的时候没问清楚&#xff0c;后来才知道限制cpu4%以内&#xff0c;才知道频繁的server unavaliable是多么的痛苦。我现在把修正后的新闻系统重新提供下载&#xff…

PromptCLUE:大规模多任务Prompt预训练中文开源模型

简介PromptCLUE&#xff1a;大规模多任务Prompt预训练中文开源模型。中文上的三大统一&#xff1a;统一模型框架&#xff0c;统一任务形式&#xff0c;统一应用方式。支持几十个不同类型的任务&#xff0c;具有较好的零样本学习能力和少样本学习能力。针对理解类任务&#xff0…