VALSE 2024年度进展评述内容分享-视觉基础大模型的进展

2024年视觉与学习青年学者研讨会(VALSE 2024)于55日到7日在重庆悦来国际会议中心举行。本公众号将全方位地对会议的热点进行报道,方便广大读者跟踪和了解人工智能的前沿理论和技术。欢迎广大读者对文章进行关注、阅读和转发。文章是对报告人演讲内容的理解或转述,可能与报告人的原意有所不同,敬请读者理解;如报告人认为文章与自己报告的内容差别较大,可以联系公众号删除。

香港大学的赵恒爽教授对视觉基础大模型的年度进展进行了总结,并做了精彩报告,下面对该报告的内容进行介绍。文中的图片均来自于该报告。

1.报告人简介

赵恒爽博士是香港大学计算机科学系的助理教授,他的研究方向涵盖计算机视觉、机器学习和人工智能等广泛的领域。

2.内容概览

随着大型语言模型的快速发展,其在图像识别、场景理解和视觉内容生成等方面的应用正受到越来越多的关注。研究者们正在尝试将这些先进的语言模型技术转化为视觉领域的创新工具,以解决更复杂的视觉认知任务。赵老师从图像分割、大型视觉语言模型(Large Vision-Language Models, LVLM)、视频基础模型几个方向出发,回顾了相关的研究进展。

3.内容整理

(1)图像分割

赵老师首先介绍了名为Segment Anything Model(SAM)的模型,如图1所示。与先前模型具有的单任务、单领域、闭集、单提示类型等局限性相比,SAM具有以下三项优势:1)用于分割的统一并且通用的界面:掩码、点、框、文本;2)数据引擎扩展:超过10亿个掩码,1100万张图片;3)强大的泛化能力:甚至适用于航拍图片、合成图片和医学图片。

1 Segment Anything Model

随后,赵老师提到了SegGPT,这是一种专注于图像分割的模型。它融合了自然语言处理技术。通过对分割任务的上下文色彩处理,SegGPT继承了传统绘画技术中的一些特点,并专注于图像中对象的精确分割。该模型利用语言提示来指导分割过程,能够有效地解析和响应复杂的图像内容,使其在处理多样化的视觉数据方面显示出高度的灵活性和准确性。

在本部分的最后,赵老师还列举了SAM的更多拓展方法,例如:Inpaint Anything [arXiv:2304.06790],Anvthing-3D [arXiv:2304.10261],Track Anything [arXiv:2304.11968],MedSAM [arXiv:2304.12306],Caption Anything [arXiv:2305.02677],PerSAM [arXiv:2305.03048],SAM-Track [arXiv:2305.06558],Matcher [arXiv:2305.13310],Recognize Anything [arXiv:2306.03514],HQ-SAM [arXiv:2306.01567],SAM3D [arXiv:2306.039081],FastSAM [arXiv:2306.12156]等。注:[ ]内为arXiv网站上文章的编号,读者可以到arXiv网站输入此编号搜索对应的论文,详细了解相应的方法

(2)大型视觉模型

LVLM是一种多模态大型语言模型(Multimodal Large Language Models, MLLMs),能够处理并理解视觉(如图像、视频)与语言(文本)的综合信息。这类模型通过深度学习技术来执行复杂的任务,如图像标注、视觉问答和图像生成等。LVLM的关键在于它们能够跨越视觉和语言的界限,提供更加丰富和准确的信息理解与生成能力。MLLMs的发展历程如图2所示。

2具有代表性的MLLMs发展历程

LVLM具有多种多样的应用场景,包括但不限于:文档(TextMonkey、Ureader、TinyChart、OtterHD、DocOwl等)、智能体/用户界面(CogAgent、AppAgent、Mobile-Agent、Ferret-UI等)、医疗(BiomedGPT、Med-Flamingo、PMC-VQA、LLava-Med、Qilin-Med-VL等)、自动驾驶(DriveGPT4、DriveLM、LMdrive、BEV-InMLLM、GPT-Driver等)。

(3)视频基础模型

视频基础模型用于视频处理和分析。这类模型能够理解和解释视频内容,实现诸如视频分类、活动识别、内容检索等功能。视频基础模型通常包括对视频帧的序列化处理,利用深度学习技术捕捉时间和空间上的信息。此外,这些模型也常用于视频生成和编辑,如生成符合特定要求的视频片段或改善视频质量。

InternVideo2为例,它的训练分为3个阶段,包括无遮挡视频令牌重建、多模态对比学习和大型语言模型联合训练,如图3所示。在阶段1中,视频编码器从头开始训练,而在阶段2和3中,它通过上一阶段使用的版本进行初始化。

3 InternVideo2训练步骤

       InternVideo2在70个视频理解任务中产生了强大的可迁移的视觉和视觉-语言表征,包括动作识别、视频-文本理解和以视频为中心的对话。此外它还具有长形式视频理解和过程感知推理的能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/832705.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

docker安装redis命令及运行

docker安装redis: docker run -d -p 6379:6379 --name redis redis:latest -d: 以 守护进程模式 运行容器,容器启动后会进入后台运行,并脱离当前命令行会话。 -p: 显示端口号。 -p 6379:6379: 将容器内部的 6379 端口映射到宿主机 6379 端…

Redis学习3——Redis应用之缓存

引言 缓存的意义 Redis作为一个NoSql数据库,被广泛的当作缓存数据库使用,所谓缓存,就是数据交换的缓冲区。使用缓存的具体原因有: 缓存数据存储于代码中,而代码运行在内存中,内存的读写性能远高于磁盘&a…

2024年第十三届工程与创新材料国际会议(ICEIM 2024)即将召开!

2024年第十三届工程与创新材料国际会议(ICEIM 2024)将于2024年9月6-8日在日本东京举行。ICEIM 2024由东京电机大学主办,会议旨在材料科学与工程、材料特性、测量方法和应用等相关领域进行学术交流与合作,在材料的微观世界里&#…

npm install 及使用cordova打包常见错误大全(附解决方案)

问题1、cb() 这是我们在install过程中最最常见问题,网络上的解决方式也都是大同小异,要么就是升级node(误人子弟),项目里的node是不可以随意升级的,它有可能会导致其他依赖又不适配,起始很多时候就是由于咱们配置的镜像…

【docker】常用的Docker编排和调度平台

常用的Docker编排和调度平台 Kubernetes (K8s): Kubernetes是目前市场上最流行和功能最全面的容器编排和调度平台。它由Google开发并开源,现由CNCF(云原生计算基金会)维护。Kubernetes设计用于自动化容器部署、扩展和管理,支持跨…

v-for中的key是什么作用

在使用v-for进行列表渲染时,我们通常会给元素或者组件绑定一个key属性。 这个key属性有什么作用呢?我们先来看一下官方的解释: key属性主要用在Vue的虚拟DOM算法,在新Inodes对比时辨识VNodes; 如果不使用key,Vue会使用…

计算机系列之信息安全技术

15、信息安全技术 1、信息安全和信息系统安全 信息安全系统的体系架构 X轴是“安全机制”,为提供某些安全服务,利用各种安全技 术和技巧,所形成的一个较为完善的机构体系。 Y轴是“OSI网络参考模型”。 Z轴是“安全服务”。就是从网络中的各…

Spring框架学习笔记(一):Spring基本介绍(包含容器底层结构)

1 官方资料 1.1 官网 https://spring.io/ 1.2 进入 Spring5 下拉 projects, 进入 Spring Framework 进入 Spring5 的 github 1.3 在maven项目中导入依赖 <dependencies><!--加入spring开发的基本包--><dependency><groupId>org.springframework<…

【软考】模拟考卷错题本2024-05-05

1 算法 关键词&#xff1a;按照单位重量价值大优先&#xff0c;那就是1、2、3即430&#xff1b;之后的根据排除法又可以得到630&#xff1b;故C。 2 UML 序列图 上图已经基本上有解析&#xff1b;重点在于在四个选项中选正确的。根据概念排除&#xff1a;异步和同步是不一样的&…

Tomact安装配置及使用(超详细)

文章目录 web相关知识概述web简介(了解)软件架构模式(掌握)BS&#xff1a;browser server 浏览器服务器CS&#xff1a;client server 客户端服务器 B/S和C/S通信模式特点(重要)web资源(理解)资源分类 URL请求路径(理解)作用介绍格式浏览器通过url访问服务器的过程 服务器(掌握)…

Typecho文章采集器火车头插件

目前市面上基本没有typecho火车头采集器 而分享的这一款采集器 内置使用方法与教程&#xff01;

基于大语言模型多智体的综述:进步和挑战!

源自&#xff1a; 人工智能前沿讲习 “人工智能技术与咨询” 发布 声明:公众号转载的文章及图片出于非商业性的教育和科研目的供大家参考和探讨&#xff0c;并不意味着支持其观点或证实其内容的真实性。版权归原作者所有&#xff0c;如转载稿涉及版权等问题&#xff0c;请立即…

Python高级编程-DJango2

Python高级编程-DJango2 没有清醒的头脑&#xff0c;再快的脚步也会走歪&#xff1b;没有谨慎的步伐&#xff0c;再平的道路也会跌倒。 目录 Python高级编程-DJango2 1.显示基本网页 2.输入框的形式&#xff1a; 1&#xff09;文本输入框 2&#xff09;单选框 3&#xff…

【docker 】 IDEA 安装 Docker 工具

打开File->Settings->Plugins 配置 Docker 的远程访问连接 Engine APIURL &#xff1a;tcp://192.168.0.1:2375 &#xff08;换成自己的docker开放端口&#xff09; 使用diea的docker插件 查看已有的镜像 创建一个容器 下面是最近更新的文章&#xff1a; 【docker 】 …

Spring与Mybatis-增删改查(注解方式与配置文件方式)

Spring框架下Mybaits的使用 准备数据库配置application.propertiespom.xml添加lombok依赖创建Emp实体类准备Mapper接口&#xff1a;EmpMapper预编译SQL根据id查询数据Mapper接口方法配置application.properties开启自动结果映射单元测试 条件模糊查询Mapper接口方法单元测试 根…

下一代自动化,国外厂商如何通过生成性AI重塑RPA?

企业自动化的未来趋势是什么&#xff1f;科技巨头们普遍认为&#xff0c;由生成性AI驱动的AI Agent将成为下一个重大发展方向。尽管“AI Agent”这一术语尚无统一定义&#xff0c;但它通常指的是那些能够根据指令通过模拟人类互动&#xff0c;在软件和网络平台上执行复杂任务的…

c# - - - winform程序四个角添加圆角效果

winform 给窗体四个角添加圆角效果。 在窗体 Load 事件中添加如下代码&#xff1a; // 创建了一个圆角矩形的路径&#xff0c;并将其设置为控件的形状 System.Drawing.Drawing2D.GraphicsPath path new System.Drawing.Drawing2D.GraphicsPath(); int radius 30; path.AddAr…

学习软考----数据库系统工程师24

关系数据库设计基础知识 函数依赖 码 多值依赖 性质

招展工作的接近尾声“2024上海国际科技创新展会”即将盛大开幕

2024上海国际科技创新展会&#xff0c;即将于6月中旬在上海新国际博览中心盛大召开。随着招展工作的接近尾声&#xff0c;目前仍有少量余位可供各企业和机构预定。这一盛大的科技展会&#xff0c;将汇聚全球智能科技领域的精英&#xff0c;共同展示最新的科技成果&#xff0c;探…

wordpress子比主题美化-为图文列表封面添加动态缩略图特效 多种效果演示

wordpress子比主题-为图文列表文章封面添加动态缩略图特效 给自己子比主题加一个列表文章封面添加动态缩略图 直接复制以下代码&#xff0c;添加到主题自定义CSS代码中即可&#xff0c;下图为效果演示 wordpress子比主题-为图文列表文章封面添加动态缩略图特效 给自己子比主题…