合肥建设官方网站网页设计师培训水公司

pingmian/2025/10/12 18:08:08/文章来源:

合肥建设官方网站,网页设计师培训水公司,韵博工业设计,wordpress如何恢复文 | Ryan都已经2021年了#xff0c;互联网已经今非昔比#xff0c;20年前纯文本的日子已经一去不复返#xff0c;文字已经满足不了网页、文章的需求#xff0c;绝大部分都会有着精心设计的表格、图片#xff0c;甚至视频。PDF文档这种富文本格式拥有更加复杂的结构信息互联网已经今非昔比20年前纯文本的日子已经一去不复返文字已经满足不了网页、文章的需求绝大部分都会有着精心设计的表格、图片甚至视频。PDF文档这种富文本格式拥有更加复杂的结构信息其流行程度已经远超TXT。大到工作报告小到收银条形形色色的文档充斥着各个角落如何利用这些文档中丰富的信息呢智能文档理解成为了许多大厂的关注要点。ML模型做文档理解的第一步往往是OCR即Optical Character Recognition光学字符识别能将文档图片中的文字转化为计算机可识别的文字。寻常情况下到此为止。然而平日里形形色色的文档经过OCR之后只留下单调的字符串格式布局中蕴含的海量信息并没有得到很好的利用文档中许多文本以外的信息无法很好地被计算机所理解。于是MSRA将多模态技术运用到文档图片中结合3种模态文本text、图片visual、布局layout去年提出了LayoutLM。今天介绍的是升级版LayoutLMv2通过预训练模型实现智能文档理解关注文档图片中的信息抽取类型识别以及文档问答一举刷新了6个榜单。多模态预训练已经不是一个新话题了已经有不少多模态预训练模型小屋往期也有介绍不熟悉的同学可以看一下这里但是针对文档图片的LayoutLM系列可谓是一个新的尝试。现有的多模态预训练模型大多建立在照片之类的图像与LayoutLM系列涉及的文档图片有着天壤之别文档图片中包含的是字符与NLP更加紧密让多模态语言建模更加简单直接。论文题目: LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding论文链接: https://arxiv.org/abs/2012.14740Arxiv访问慢的小伙伴也可以在【夕小瑶的卖萌屋】订阅号后台回复关键词【0129】下载论文PDF~LayoutLMv2论文主要介绍了三部分多模态特征提取、相对位置Attention、3个多模态预训练任务。文档图片的多模态文档图片既是文档又是图片平平无奇的一页纸就蕴含了多种特征。当我们将一个文档图片输入到OCR识别后我们不仅仅能获得文字信息(text)同时得到各个文字所在的位置是为布局特征(Layout)将图片本身输入视觉模型就可以得到丰富的视觉信息(visual)。针对三种特征LayoutLMv2分别建模文字信息即OCR识别出的文字的内容基于传统的预训练语言模型通过tokenizer处理后直接词向量嵌入。视觉信息即文档图片本身LayoutLMv2利用ResNeXt-FPN对整个文档图片提取特征将得到的WxH的feature map拉平为WH长的特征序列并通过线性层映射到固定维度因为基于CNN的视觉模型无法学习顺序信息LayoutLM额外加上了和BERT一样的Postion Embedding。布局信息即OCR识别出的文字的位置实际上是标注文字位置的坐标LayoutLMv2同样通过向量嵌入技术将坐标归一化到[0, 1000]并取整再映射到对应的向量最后将横纵坐标对应的向量相连接。LayoutLMv2将视觉特征和文本特征融合到一个统一的序列中通过Segment Embedding加以区别并与对应的布局特征分别求和。考虑相对位置的Transformer得到了融合特征下一步就是多层Transformer了不过LayoutLMv2在传统的Transformer中添加了考虑到相对位置的Attention机制将不同位置之间的Attention权重增加相对应的bias不同的bias对应位置之间的相对距离。3个多模态预训练任务多模态预训练任务不仅需要学习文本本身的特征更需要利用好文本和其他模态之间的关联。Masked Visual-Language Modeling: 和传统BERT类似LayoutLMv2会mask若干词的文本特征并在输入图片中将这些词的位置涂黑但保留布局特征让模型预测丢失的词。这是利用上下文和布局信息去恢复文本信息。Text-Image Alignment: 输入图片时将若干行覆盖(cover)通过文本预测当前词是否被覆盖(cover)。这是利用上下文和文本信息去确定布局信息。Text-Image Matching和许多其他多模态预训练模型类似LayoutLMv2在输入时会替换一部分图片并让模型判断输入的图片与当前文字是否对应。这是学习视觉信息和其他模态的关联。预训练的结果6个数据集登顶预训练LayoutLMv2在预训练中首先将模型初始化为UniLMv2的权重由于UniLMv2是单纯的文本预训练模型LayoutLMv2接着在IIT-CDIP的大量文档图片上预训练布局特征和视觉特征。下游任务LayoutLMv2针对智能文档理解的文档视觉问答DocVQA、文档分类、序列标注三个任务并一举刷新了6个数据集的榜单。文档视觉问答DocVQA抽取式文档问答即预测文本中某几段区域作为答案任务转化为预测这段些段落的开始和结束LayoutLMv2将问题文本、上下文文本和视觉特征作为输入序列中的三个segmentA、B、C在上下文部分之上添加分类器。这个问题上LayoutLMv2选用了DocVQA数据集结果如下文档分类即文档图片分类类别诸如信件、收据等等与传统的文本分类类似LayoutLMv2选取输入序列中的[CLS]对应的隐藏状态进行分类预测。LayoutLMv2选用了RVL-CDIP数据集并且将模型与文本预训练模型和视觉模型进行对比取得了目前的SOTA序列标注与传统的序列标注任务类似即将文档内文字排成序列预测各个单词的标签这个任务上LayoutLMv2选用了4个数据集FUNSD、CORD、SROIE、Kleister-NDA4个数据集涵盖了普通报表、单据小票各种格式篇幅有限这里只附上FUNSD数据集上的结果Whats Next?LayoutLMv2有着精心设计的模型、契合问题的预训练任务、丰富的下游实验可谓是一篇十分出色的多模态预训练论文。从结果中我们也可以看到针对文档智能理解的应用场景在原本纯文本之外加入布局与视觉信息对结果有着很大的提高。这也并不意外毕竟文档不仅仅是朴实的文字布局信息或者说位置信息与当前文字在整个页面内的作用十分相关LayoutLM系列中很关键的部分即如何更好的利用位置信息如何将这种低维度的特征融入到模型中相信接下来这一方面会有更多相关的工作与尝试。另外图片分类任务大多使用视觉模型但是文档图片和一般图片不同内容与图片类型也是十分相关虽然我们可以看到单纯基于文本的模型如BERT、UniLMv2略逊于单纯基于视觉的模型如VGG-16、InceptionResNetV2等但是如果将二者结合就能够取得超过前两者的结果。文档图片作为生活中十分常见的信息载体同时又是天然的多模态材料相信未来有着更多的工作。萌屋作者Ryan本科毕业于北大计算机系曾混迹于商汤和MSRA现在是宅在家里的UCSD(Social Dead)在读PhD主要关注多模态中的NLP和data mining也在探索更多有意思的Topic原本只是贵公众号的吃瓜群众被各种有意思的推送吸引就上了贼船希望借此沾沾小屋的灵气paper早日成为有猫的程序员作品推荐1.Transformer哪家强Google爸爸辨优良后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/pingmian/88408.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！