合肥建设官方网站网页设计师培训水公司

pingmian/2025/10/12 18:08:08/文章来源:
合肥建设官方网站,网页设计师培训水公司,韵博工业设计,wordpress如何恢复文 | Ryan都已经2021年了#xff0c;互联网已经今非昔比#xff0c;20年前纯文本的日子已经一去不复返#xff0c;文字已经满足不了网页、文章的需求#xff0c;绝大部分都会有着精心设计的表格、图片#xff0c;甚至视频。PDF文档这种富文本格式拥有更加复杂的结构信息互联网已经今非昔比20年前纯文本的日子已经一去不复返文字已经满足不了网页、文章的需求绝大部分都会有着精心设计的表格、图片甚至视频。PDF文档这种富文本格式拥有更加复杂的结构信息其流行程度已经远超TXT。大到工作报告小到收银条形形色色的文档充斥着各个角落如何利用这些文档中丰富的信息呢智能文档理解成为了许多大厂的关注要点。ML模型做文档理解的第一步往往是OCR即Optical Character Recognition光学字符识别能将文档图片中的文字转化为计算机可识别的文字。寻常情况下到此为止。然而平日里形形色色的文档经过OCR之后只留下单调的字符串格式布局中蕴含的海量信息并没有得到很好的利用文档中许多文本以外的信息无法很好地被计算机所理解。于是MSRA将多模态技术运用到文档图片中结合3种模态文本text、图片visual、布局layout去年提出了LayoutLM。今天介绍的是升级版LayoutLMv2通过预训练模型实现智能文档理解关注文档图片中的信息抽取类型识别以及文档问答一举刷新了6个榜单。多模态预训练已经不是一个新话题了已经有不少多模态预训练模型小屋往期也有介绍不熟悉的同学可以看一下这里 但是针对文档图片的LayoutLM系列可谓是一个新的尝试。现有的多模态预训练模型大多建立在照片之类的图像与LayoutLM系列涉及的文档图片有着天壤之别文档图片中包含的是字符与NLP更加紧密让多模态语言建模更加简单直接。论文题目: LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding论文链接: https://arxiv.org/abs/2012.14740Arxiv访问慢的小伙伴也可以在 【夕小瑶的卖萌屋】订阅号后台回复关键词 【0129】 下载论文PDF~LayoutLMv2论文主要介绍了三部分多模态特征提取、相对位置Attention、3个多模态预训练任务。文档图片的多模态文档图片既是文档又是图片平平无奇的一页纸就蕴含了多种特征。当我们将一个文档图片输入到OCR识别后我们不仅仅能获得文字信息(text)同时得到各个文字所在的位置是为布局特征(Layout)将图片本身输入视觉模型就可以得到丰富的视觉信息(visual)。针对三种特征LayoutLMv2分别建模文字信息即OCR识别出的文字的内容基于传统的预训练语言模型通过tokenizer处理后直接词向量嵌入。视觉信息即文档图片本身LayoutLMv2利用ResNeXt-FPN对整个文档图片提取特征将得到的WxH的feature map拉平为WH长的特征序列并通过线性层映射到固定维度因为基于CNN的视觉模型无法学习顺序信息LayoutLM额外加上了和BERT一样的Postion Embedding。布局信息即OCR识别出的文字的位置实际上是标注文字位置的坐标LayoutLMv2同样通过向量嵌入技术将坐标归一化到[0, 1000]并取整再映射到对应的向量最后将横纵坐标对应的向量相连接。LayoutLMv2将视觉特征和文本特征融合到一个统一的序列中通过Segment Embedding加以区别并与对应的布局特征分别求和。考虑相对位置的Transformer得到了融合特征下一步就是多层Transformer了不过LayoutLMv2在传统的Transformer中添加了考虑到相对位置的Attention机制将不同位置之间的Attention权重增加相对应的bias不同的bias对应位置之间的相对距离。3个多模态预训练任务多模态预训练任务不仅需要学习文本本身的特征更需要利用好文本和其他模态之间的关联。Masked Visual-Language Modeling: 和传统BERT类似LayoutLMv2会mask若干词的文本特征并在输入图片中将这些词的位置涂黑但保留布局特征让模型预测丢失的词。这是利用上下文和布局信息去恢复文本信息。Text-Image Alignment: 输入图片时将若干行覆盖(cover)通过文本预测当前词是否被覆盖(cover)。这是利用上下文和文本信息去确定布局信息。Text-Image Matching和许多其他多模态预训练模型类似LayoutLMv2在输入时会替换一部分图片并让模型判断输入的图片与当前文字是否对应。这是学习视觉信息和其他模态的关联。预训练的结果6个数据集登顶预训练LayoutLMv2在预训练中首先将模型初始化为UniLMv2的权重由于UniLMv2是单纯的文本预训练模型LayoutLMv2接着在IIT-CDIP的大量文档图片上预训练布局特征和视觉特征。下游任务LayoutLMv2针对智能文档理解的文档视觉问答DocVQA、文档分类、序列标注三个任务并一举刷新了6个数据集的榜单。文档视觉问答DocVQA抽取式文档问答即预测文本中某几段区域作为答案任务转化为预测这段些段落的开始和结束LayoutLMv2将问题文本、上下文文本和视觉特征作为输入序列中的三个segmentA、B、C在上下文部分之上添加分类器。这个问题上LayoutLMv2选用了DocVQA数据集结果如下文档分类即文档图片分类类别诸如信件、收据等等与传统的文本分类类似LayoutLMv2选取输入序列中的[CLS]对应的隐藏状态进行分类预测。LayoutLMv2选用了RVL-CDIP数据集并且将模型与文本预训练模型和视觉模型进行对比取得了目前的SOTA序列标注与传统的序列标注任务类似即将文档内文字排成序列预测各个单词的标签这个任务上LayoutLMv2选用了4个数据集FUNSD、CORD、SROIE、Kleister-NDA4个数据集涵盖了普通报表、单据小票各种格式篇幅有限这里只附上FUNSD数据集上的结果Whats Next?LayoutLMv2有着精心设计的模型、契合问题的预训练任务、丰富的下游实验可谓是一篇十分出色的多模态预训练论文。从结果中我们也可以看到针对文档智能理解的应用场景在原本纯文本之外加入布局与视觉信息对结果有着很大的提高。这也并不意外毕竟文档不仅仅是朴实的文字布局信息或者说位置信息与当前文字在整个页面内的作用十分相关LayoutLM系列中很关键的部分即如何更好的利用位置信息如何将这种低维度的特征融入到模型中相信接下来这一方面会有更多相关的工作与尝试。另外图片分类任务大多使用视觉模型但是文档图片和一般图片不同内容与图片类型也是十分相关虽然我们可以看到单纯基于文本的模型如BERT、UniLMv2略逊于单纯基于视觉的模型如VGG-16、InceptionResNetV2等但是如果将二者结合就能够取得超过前两者的结果。文档图片作为生活中十分常见的信息载体同时又是天然的多模态材料相信未来有着更多的工作。萌屋作者Ryan本科毕业于北大计算机系曾混迹于商汤和MSRA现在是宅在家里的UCSD(Social Dead)在读PhD主要关注多模态中的NLP和data mining也在探索更多有意思的Topic原本只是贵公众号的吃瓜群众被各种有意思的推送吸引就上了贼船希望借此沾沾小屋的灵气paper早日成为有猫的程序员作品推荐1.Transformer哪家强Google爸爸辨优良后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/88408.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

北京市建设工程造价管理处 网站wordpress管理导航栏目

问题描述 最近安装了MYSQL8,遇到了各种问题,总体汇总一下,凡是无法启动就是my.cnf和初始化的参数不匹配。 第一种 启动前设置了mysqld --initialize --usermysql --lower-case-table-names1,my.cnf文件却没有修改就去启动。 第…

在哪可以建一个网站沂水网站建设

引言 Redis是一款基于内存的键值对数据库,提供了多种数据结构存储数据,存取数据的速度还非常快,除了这些优点它还提供了其他特色功能,比如:管道、lua脚本、发布订阅模型 本篇文章主要描述发布订阅模型,将…

免费微信网站开发前端技术包括哪些

大家都知道电脑使用起来非常方便,但遇见ps如何画直线的时候就非常头疼了,如果你是第一次遇到ps如何画直线,怎么样才能快速解决ps如何画直线带来的烦恼呢?小编为大家收集了很多关于ps如何画直线问题的解决方法,下面请看…

益阳市网站建设交换友情链接的意义是什么

随着科技的快速发展,现在的人们越来越注重自己的卫生问题,不仅在吃上面会注重卫生问题,在用的上面也会更加严格要求,而衣服做为我们最贴身的东西,我们对它的要求也会更加高,所以最近这几年较火爆的无疑是内…

广州手机网站制作天津网站建设揭秘

命名规则:表名_字段名1、需要加索引的字段,要在where条件中2、数据量少的字段不需要加索引3、如果where条件中是OR关系,加索引不起作用4、符合最左原则尽量不要用or,如果可以用union代替,则一定要代替https://segmentf…

无锡做推广的网站织梦cms做网站教程视频

前言 逻辑门本质上操作的是单个二进制数,通过高低电压或者有无信号来表示,并且,因为二进制数的原因,一个数字,我们可以通过二进制数来表示,整数可以精确表示,浮点数可以近似表示 本篇文章使用逻…

海珠区住房和建设水务局网站高性能网站建设指南 书

对于居住大户型或者跃层户型的用户来说,由于房屋结构复杂,还有各种转角墙体的阻隔,一台路由器已经无法满足WiFi覆盖需求,单路由家庭的WiFi覆盖总是有死角。为了解决WiFi信号差的问题,很多人直觉反应就是简单粗暴的多加…

长沙模板建站欢迎咨询asp网站gzip压缩

目录 行内元素&#x1f338;常见的行内元素&#x1f338;行内元素&#xff08;内联元素&#xff09;的特性 块级元素&#x1f338;常见的块级元素&#x1f338;块级元素的特性 相互转换(display)&#x1f338;行内块状元素的特性 行内元素 &#x1f338;常见的行内元素 <s…

网站开发时间段网站制作和网页制作是不是一样

简介&#xff1a;北坡模式&#xff1a;借助于云上大计算性能突破来提供HPC服务&#xff0c;切入的重点更加聚焦于云服务。 随着数字化转型的深入&#xff0c;行业应用对算力提出更高要求。为满足不同行业灵活的业务形态与计算需求&#xff0c;以云计算技术为服务模式创新的技术…

山西网站开发公司上饶福田集团

要求&#xff1a; 某个人进入如下一个棋盘中&#xff0c;要求从左上角开始走&#xff0c; 最后从右下角出来&#xff08;要求只能前进&#xff0c;不能后退&#xff09;&#xff0c; 问题&#xff1a;共有多少种走法&#xff1f; 0 0 0 0 0 0 0 0 0 0 0 0 0 …

wordpress多语言界面短视频seo营销

笔记目录 渗透测试工具(1)wireshark渗透测试工具(2)Nmap渗透测试工具(3)BurpsuiteAWD比赛(1)AWD入门攻略大纲CTF-Web(2)SQL注入CTF-Web(3)文件上传漏洞 图片隐写目录 (1)GIf和二维码隐写 二维码补全 二维码绘图 Gif规律分析 (2)文本附加图片隐写 (3)IHDR文件头修复图片宽高 (…

上海市奉贤区建设局网站上海网站设计公司电话

该文章是在学习 小满vue3 课程的随堂记录示例均采用 <script setup>&#xff0c;且包含 typescript 的基础用法 前言 Vue3 中新增了一种特殊的监听器 watchEffect&#xff0c;它的类型是&#xff1a; function watchEffect(effect: (onCleanup: OnCleanup) > void,o…

珠海建设网站官网跟换网站域名

删除namespace中的所以pod等 kubectl -n namespace delete pod --all svc pvc 等 1、使用 --force 参数强制删除 这种方法一般情况下是有效的。但在ns长时间处于Terminating的时候也会失效。 kubectl delete ns namespace --force --grace-period0 --grace-period 表…

网站微信建设方案61制作工厂网站

问题 数据冗余更新异常插入异常删除异常 一个好的模式应当不会发生插入异常、删除异常和更新异常&#xff0c;数据冗余应尽可能少 数据依赖 定义&#xff1a;一个关系内部属性与属性之间的一种约束关系&#xff08;该约束关系是通过属性间值的相等与否体现出来数据间相关联…

c 网站开发的好处信阳网站设计

简介&#xff1a; 2021 云栖大会现场&#xff0c;阿里巴巴研究员、阿里云智能云原生应用平台总经理 丁宇&#xff08;叔同&#xff09;重磅发布了函数计算的 7 大技术创新和突破&#xff0c;加速现代应用架构的革新。 Serverless 的本质是通过屏蔽底层的计算资源&#xff0c;来…

网站建设部岗位职责wordpress禁止响应

归并排序 动图演示&#xff1a; 基本思想&#xff1a;分治思想 归并排序&#xff08;MERGE-SORT&#xff09;是建立在归并操作上的一种有效的排序算法,该算法是采用分治法的一个非常典型的应用。将已有序的子序列合并&#xff0c;得到完全有序的序列&#xff1b;即先使每个子…

成都网站建设推荐安徽秒搜科技山西省建筑工程网

今天分享的AI系列深度研究报告&#xff1a;《AI聊天专题报告&#xff1a;ChatGPT全景图聊聊技术产品和未来》。 &#xff08;报告出品方&#xff1a;LanguageX&#xff09; 报告共计&#xff1a;22页 争论&#xff1a;ChatGPT算不算技术革命 回应吴军老师“ChatGPT不算新技术…

淘宝网站怎么做视频教程竞价广告推广

随着全球经济的逐步复苏&#xff0c;特别是科技行业的快速发展&#xff0c;芯片股作为科技板块的重要组成部分&#xff0c;在美股市场的表现尤为引人注目。近期&#xff0c;美股芯片股在盘前交易中持续走高&#xff0c;其中AMD的涨幅超过2%&#xff0c;ARM和英伟达也分别涨超1%…

网站推广工作职责做网站编程语言

Bug是指在程序或系统中存在的错误、缺陷或异常&#xff0c;是由于编码错误、设计问题、逻辑错误或其他因素导致的。 常见的Bug分类方法 功能性Bug与软件的功能有关&#xff0c;软件无法正常工作、功能与需求不符或功能执行不正确。 用户界面Bug与软件的用户界面有关&#xff…

防疫站24小时在线咨询东莞微信网站开发

[css] box-sizing常用的属性有哪些&#xff1f;分别有什么作用&#xff1f; box-sizing常用的属性有 content-box 和 border-box。content-box 盒子的宽度不包含 border和padding&#xff0c;border-box盒子的宽度包含border 和padding。个人简介 我是歌谣&#xff0c;欢迎和大…