品牌营销型网站建设公司网站建设和程序开发哪个好
web/
2025/9/26 23:54:59/
文章来源:
品牌营销型网站建设公司,网站建设和程序开发哪个好,wordpress备份恢复.wpress,微信h5页面制作软件哪个好论文笔记整理#xff1a;柏超宇#xff0c;东南大学硕士。文章链接#xff1a;https://arxiv.org/pdf/2011.01565.pdf来源#xff1a;EMNLP 2020动机社交媒体每天都会产生大量的内容。为了帮助用户快速捕捉所需内容#xff0c;关键词预测受到越来越多的关注。尽管如此柏超宇东南大学硕士。文章链接https://arxiv.org/pdf/2011.01565.pdf来源EMNLP 2020动机社交媒体每天都会产生大量的内容。为了帮助用户快速捕捉所需内容关键词预测受到越来越多的关注。尽管如此之前的工作大多集中在文本建模上很大程度上忽略了图像中蕴含的丰富信息。随着单模态模型的发展成熟研究人员把关注热点聚焦在了多模态模型上希望通过结合文本和视觉信息帮助模型去更好的完成对应任务。简介在这项工作中作者探索了文本和图像在预测多媒体帖子的关键词中的作用。为了更好地调整社交媒体风格的文本和图像作者提出了1一种新颖的多模态多头注意力M3H-Att以捕捉复杂的跨媒体交互2image wordings以光学字符和图像属性的形式连接两种模态。此外我们设计了一个新颖的统一框架以利用关键词分类和生成的输出并将它们的优点结合起来。在实验部分作者从Twitter收集了一个大规模数据集实验表明本文的模型明显优于之前传统注意力网络。进一步的分析表明该模型的多头注意力能够关注各个模态的信息并在不同场景下提升分类或生成任务的效果本文所关注的任务是在多模态的社交信息中提取出关键词。模型框架作者采用了一个生成式模型来生成最后的答案这也是最近多模态模型常用的方法作者使用了Glove对文字信息进行初始化使用GRU提取文本的特征。而在图像方面作者考虑了两种特征使用了在VG数据集上预训练过的Faster-RCNN对目标框进行检测置信度前五框的类别被选出来作为图像的attributefeature用来提供对图像的高层理解同时也会采用卷积核为7*7的VGG-16抽取出整幅图像的特征。而图片中的文字信息作者也使用了OCR技术识别了出来与文字信息拼接在一起。在抽取出单模态的特征后作者使用了一个M3H-Att的模型来对这三种模态的特征进行融合将融合后的多模态向量解码生成所需要的关键词。M3H-Att即Multi-Modality Multi-Head Attention也是基于Transformer结构的一个编码器。QKV三个矩阵只有Q送入了自己模态的attention层而K和V矩阵都送入另一个模态的attention层详情可以参考下面的图。这种结构在双流的多模态预训练模型中也有用到如Vil-BERT而本模型将bbox的类别也当成一个模态信息进行了三个模态信息的融合。实验在实验部分作者与一些流行的单模态多模态模型进行对比从实验结果中我们可以发现由于最后需要回答的关键词是文本模态的所以单从图片中进行解码并不会获得比较好的效果而从利用文本模态能够得到一个比较不错的结果本文提出的多模态模型相比较于最出色的单文本模态模型有所提升但是效果不明显图片的视觉信息还未和文本对齐所以带来的性能提升非常有限在这里可能借助一些预训练任务能够让这几个模态的向量融合的更好。在实验部分作者还尝试了一些消融实验分别展示了在该任务上使用多头注意力机制和OCR特征以及attribute特征的作用分别都对模型的效果有所提升。总结本文研究了社交媒体上的跨媒体关键词预测任务并提出了一个框架来融合生成和分类模型的优势来完成这一任务。此外本文还提出了一种新型的多模态多头注意力机制来融合文本和图像的特征。在新收集的大规模Twitter语料库上的实验结果表明该模型优于基于传统注意力机制的生成和分类模型。 OpenKG开放知识图谱简称 OpenKG旨在促进中文知识图谱数据的开放与互联促进知识图谱和语义技术的普及和广泛应用。点击阅读原文进入 OpenKG 网站。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/82445.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!