兼顾长、短视频任务的无人机具身理解！AirVista-II：面向动态场景语义理解的无人机具身智能体系统

兼顾长、短视频任务的无人机具身理解！AirVista-II：面向动态场景语义理解的无人机具身智能体系统

news/2025/7/14 13:24:35/文章来源:https://blog.csdn.net/weixin_37990186/article/details/147990899

作者：Fei Lin $^{1}$ , Yonglin Tian $^{2}$ , Tengchao Zhang $^{1}$ , Jun Huang $^{1}$ , Sangtian Guan $^{1}$ , and Fei-Yue Wang $^{2,1}$
单位： $^{1}$ 澳门科技大学创新工程学院工程科学系， $^{2}$ 中科院自动化研究所复杂系统管理与控制国家重点实验室
论文标题：AirVista-II: An Agentic System for Embodied UAVs Toward Dynamic Scene Semantic Understanding
论文链接：https://arxiv.org/pdf/2504.09583

主要贡献

提出AirVista-II系统：这是一个端到端的代理系统，用于使无人机（UAV）从被动的数据采集平台向主动的语义交互范式转变，实现了无人机在动态场景中的通用语义理解和推理。
设计自适应关键帧提取策略：针对长视频场景，提出了一种结合运动感知采样、聚类分析和模型引导选择的自适应关键帧提取策略。该策略能够有效地捕捉语义显著的帧，增强无人机对复杂动态场景的理解能力。
在多个公共航拍视频数据集上验证：在零样本（zero-shot）设置下，展示了系统在多样化无人机动态场景中的高准确性和描述质量，证明了其在实际应用中的潜力。

研究背景

无人机在动态环境中的重要性：
- 无人机在物流运输、灾难响应等动态环境中扮演着越来越重要的角色。
- 然而，目前的任务通常依赖于人类操作员监控航拍视频并做出决策，这种人机协作模式在效率和适应性方面存在显著限制。
语义理解任务的需求：
- 为了实现更高效的自主操作，无人机需要具备语义理解能力，不仅作为数据采集平台，还要能够进行环境的语义建模和自然语言交互，从而根据感知信息生成对人类操作指令的高级语义响应。
现有方法的局限性：
- 近年来，以大型语言模型（LLM）为代表的基础模型（FM）在具身智能领域展现了强大的自主性和领域适应性。
- 然而，现有方法通常缺乏显式的任务规划机制，导致响应可控性不稳定。此外，由于缺乏外部工具调用能力和协调多模块框架，在处理结构复杂和开放性任务时泛化能力有限。

研究方法

系统架构

AirVista-II系统由规划模块和执行模块组成。根据输入场景的时间长度，将动态场景分为三种类型：即时场景（单帧图像）、短视频（小于60秒）和长视频（大于等于60秒），分别对应不同的任务形式和执行策略。

规划模块

核心功能：基于LLaVA或GPT-4o的规划代理，将自然语言指令转化为结构化任务，并分派给下游执行代理。
处理流程：
- 如果查询缺乏明确的时间信息，则通过交互式细化模块更新查询。
- 对于语义模糊的查询，应用链式思考（CoT）模板将其分解为更具体的子问题。
- 根据提取的时间信息，使用FFmpeg工具从输入视频中检索图像帧或视频片段。
- 根据持续时间确定数据的模态标签（图像、短视频或长视频）。

执行模块

即时图像任务

处理方式：图像代理接收图像和用户查询，并调用AirVista工具生成答案。AirVista是一个专门针对无人机的多模态问答模型，能够进行细粒度的语义理解和3D空间推理。

短视频任务

关键帧提取：短视频代理首先使用OpenCV从短视频中提取6个均匀间隔的关键帧，形成一个3×2的时间网格图像。
推理过程：在网格提示的引导下，代理对网格和查询进行自我推理以产生答案。这种策略显著减少了计算开销，同时保留了时间上下文。

长视频任务

自适应关键帧提取策略：
- 运动感知采样：计算采样步长 $\left\lfloor \frac{f \cdot \lambda}{v} \right\rfloor$ ，其中 $f$ 是帧率， $v$ 是无人机的平均速度， $\lambda$ 是期望的语义分辨率。这确保了无人机在采样帧之间至少移动 $\lambda$ 米，平衡了覆盖范围和效率。
- 聚类分析：使用CLIP ViT-B/16提取高维语义嵌入，对不同数量的聚类进行评估，选择最优聚类数量。
- 模型引导选择：从每个聚类中选择最早时间戳的帧形成最终关键帧集，构建近方形网格图像。
- 推理过程：在网格提示的引导下，代理对网格和查询进行推理以生成答案。

实验

短视视频场景实验

CapERA-QA任务

任务描述：基于CapERA数据集构建内容总结问答任务，随机选择一个人类标注的字幕作为参考答案，并手动构建相应的问题。
评估方法：采用基于GPT的语义评估方法，结果显示准确率为75.6%，平均得分为3.703。这表明系统能够准确捕捉大多数航拍视频中的主要事件和动态语义。

可读性评估：采用多种主流英语可读性指标（如Gunning Fog Index、Dale–Chall Readability Formula等），统计结果显示生成答案的可读性较好。

ERA-QA任务

任务描述：基于ERA数据集构建开放性问答任务，包含运动理解、空间关系、时间关系和自由形式问题四种类型。
评估方法：比较基于LLaVA-1.6-34B和GPT-4o的短视频代理的性能，结果显示LLaVA-1.6-34B的准确率为66.5%，平均得分为3.715；GPT-4o的准确率为53.0%，平均得分为3.140。

长视频场景实验

任务描述：基于SynDrone数据集构建长视频问答任务，手动设计开放性问题以评估系统在长时间、多事件动态场景中的综合问答能力。
聚类评估：通过视觉分析聚类评估结果，选择最优聚类数量。实验结果表明，自适应关键帧提取策略能够根据场景复杂性动态选择不同数量的关键帧。
性能对比：与固定帧采样策略（如均匀采样6帧）相比，自适应关键帧提取策略更有效地捕捉长视频的关键语义内容，使代理能够生成完整准确的响应。

结论与未来工作

结论：
- AirVista-II系统通过自适应关键帧提取方法，有效提高了无人机对复杂动态内容的感知和推理性能，增强了无人机在动态环境中的通用语义理解和推理能力。
- 该系统在多个公共航拍视频数据集上的实验结果表明，其在零样本设置下具有高准确性和描述质量，展示了良好的实际应用潜力。
未来工作：
- 优化流程：将专注于优化流程以减少计算开销，特别是在长视频处理中，进一步提高系统的实时性和效率。
- 增强鲁棒性：通过更多的实验和测试，增强整个系统在复杂环境下的鲁棒性，确保其在实际应用中的稳定性和可靠性。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/905630.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【蓝桥杯省赛真题49】python偶数第十五届蓝桥杯青少组Python编程省赛真题解析

【蓝桥杯省赛真题49】python偶数第十五届蓝桥杯青少组Python编程省赛真题解析

python偶数第十五届蓝桥杯青少组python比赛省赛真题详细解析博主推荐所有考级比赛学习相关资料合集【推荐收藏】1、Python比赛信息素养大赛Python编程挑战赛蓝桥杯python选拔赛真题详解

阅读更多...

鸿蒙（HarmonyOS）应用开发入门教程

鸿蒙（HarmonyOS）应用开发入门教程

目录第一章：鸿蒙系统简介 1.1 什么是鸿蒙系统？ 1.2 鸿蒙系统架构第二章：开发环境搭建 2.1 安装DevEco Studio 步骤1：下载与安装步骤2：首次配置步骤3：设备准备 2.2 创建第一个项目第三章：鸿蒙应用开发基础 3.1 核心概念：Ability与AbilitySlice 示例代码…

阅读更多...

VM中 ubuntu 网卡不显示

VM中 ubuntu 网卡不显示

1.添加网卡配置 #sudo nano /etc/netplan/01-netcfg.yaml network:version: 2renderer: networkdethernets:ens33:dhcp4: trueens37:dhcp4: trueens38:dhcp4: true#保存后 sudo netplan apply2.查看网络状态 sudo systemctl start systemd-networkd sudo systemctl status sy…

阅读更多...

阿克曼-幻宇机器人系列教程3- 机器人交互实践（Message）

阿克曼-幻宇机器人系列教程3- 机器人交互实践（Message）

上一篇文章介绍了如何通过topic操作命令实现与机器人的交互，本篇我们介绍如何通过Message（即topic的下一级）实现与机器人的交互。和topic一样，首先在一个终端通过ssh命令登录机器人、启动机器人，然后打开另外一个终端…

阅读更多...

Python 调试扩展版本兼容问题解决纪实

Python 调试扩展版本兼容问题解决纪实

在 Python 开发中，调试工具的正常使用对效率至关重要。近期在公司项目中，便遇到了 Python 调试扩展与版本不兼容的问题。公司 ERP 服务器采用 Ubuntu 18.04 系统，其标配 Python 版本为 3.6，而常用的 Python Debugger 扩展对版本有…

阅读更多...

React 第四十二节 Router 中useLoaderData的用途详解

React 第四十二节 Router 中useLoaderData的用途详解

一、前言 useLoaderData，用于在组件中获取路由预加载的数据。它通常与路由配置中的 loader 函数配合使用，用于在页面渲染前异步获取数据（如 API 请求），并将数据直接注入组件，从而简化数据流管理。二、us…

阅读更多...

Linux——mysql主从复制与读写分离

Linux——mysql主从复制与读写分离

目录一，理解什么是mysql主从复制 1，mysql支持的复制类型 2，mysql主从复制的工作流程二，配置mysql主从复制三，配置mysql主主复制四，mysql读写分离 1，了解什么是mysql读写分离 2&…

阅读更多...

MongoDB数据库深度解析：架构、特性与应用场景

MongoDB数据库深度解析：架构、特性与应用场景

在现代应用程序开发中，数据存储技术的选择至关重要。在众多的数据库管理系统中，MongoDB以其灵活性和强大的功能迅速崛起，成为NoSQL数据库中的佼佼者。本文将深入解析MongoDB的架构、核心特性、性能优化及其在实际应用中的最佳实践&#xff0c…

阅读更多...

3D曲面上的TSP问题（一）：曲面上点集距离求解

3D曲面上的TSP问题（一）：曲面上点集距离求解

3D曲面上，两点的距离求解不能采用欧式距离，而需要计算测地线距离。代码使用CGAL 5.6.2 OpenCV 4.11.0 版本实现 #include "cgal_utils.h" #include <CGAL/AABB_tree.h> #include <CGAL/AABB_traits.h> #include <CGAL/AABB_…

阅读更多...

【歌曲结构】2：小节与歌曲结构信息整合

【歌曲结构】2：小节与歌曲结构信息整合

歌曲小节与结构信息整合我将为您整合小节信息与歌曲结构，创建一个更加详细的JSON数据结构。处理方法将小节时间与歌曲结构段落进行匹配为每个小节添加所属段落信息为小节添加格式化的时间戳为小节添加对应时间范围内的歌词{"song_title": "财神庙前许三亿…

阅读更多...

C语言：深入理解指针（3）

C语言：深入理解指针（3）

目录一、数组名的理解二、用指针访问数组三、一维数组传参的本质四、冒泡排序五、二级指针六、指针数组七、指针数组模拟二维数组八、结语一、数组名的理解数组名其实就是首元素的地址 int arr[3] {1,2,3}; printf("arr :%p\n" ,arr); printf(…

阅读更多...

Spring MVC 接口的访问方法如何设置

Spring MVC 接口的访问方法如何设置

RequestMapping 是 Spring 框架中用于映射 HTTP 请求到控制器方法的注解。它支持以下 HTTP 方法访问类型，通过 method 属性指定： GET：用于获取资源POST：用于提交数据PUT：用于更新资源DELETE：用于删除资源PA…

阅读更多...

linux libdbus使用案例

linux libdbus使用案例

以下是一个基于 Linux libdbus 的详细指南，包含服务端和客户端的完整代码示例，涵盖方法调用、信号发送和异步消息处理。libdbus 是 D-Bus 的底层 C 库，直接操作 D-Bus 协议，适合需要精细控制的场景。 1. libdbus 的核心机制连接管理：通过 dbus_bus_get 连接系统总线或…

阅读更多...

Day118 | 灵神 | 二叉树 | 删点成林

Day118 | 灵神 | 二叉树 | 删点成林

Day118 | 灵神 | 二叉树 | 删点成林 1110.删点成林 1110. 删点成林 - 力扣（LeetCode） 思路： 最直接的思路就是看当前结点的值是不是在要删除的列表中，在的话删除当前结点并把左右孩子加入res中很可惜这样是错的，…

阅读更多...

趣味编程：钟表

趣味编程：钟表

目录 1. 效果展示 2. 源码展示 3. 逻辑概述 3.1 表针绘制函数（DrawHand） 3.2 表盘绘制函数 3.3 主程序逻辑 4. 小结概述：本篇博客主要介绍简易钟表的绘制。 1. 效果展示该钟表会随着系统的时间变化而变化，动态的效…

阅读更多...

ansible进阶02

ansible进阶02

管理主机清单变量使用变量的原则变量创建的位置角色的defaults或vars目录主机清单playbook或主机清单所在位置的子目录group_vars和host_varsplay或角色或任务无论在哪创建变量，都应该遵守一些规则： 保持简洁不要重复造轮子。不要反复在多个位置…

阅读更多...

C40-指针

C40-指针

一指针的引入什么是指针:指针是一个变量，其值是另一个变量的内存地址简单的使用地址输出一个变量: 代码示例 #include <stdio.h> int main() {int a10;printf("a的地址是:%p\n",&a);printf("a%d\n",*(&a)); //*号是取值运算符…

阅读更多...

Nginx 返回 504 状态码表示网关超时（Gateway Timeout）原因排查

Nginx 返回 504 状态码表示网关超时（Gateway Timeout）原因排查

Nginx 返回 504 状态码表示网关超时（Gateway Timeout），这意味着 Nginx 作为反向代理服务器，在等待上游服务器（如后端应用服务器、数据库服务器等）响应时，超过了预设的时间限制，最终…

阅读更多...

DeepSeek推理优化技巧：提升速度与降低成本

DeepSeek推理优化技巧：提升速度与降低成本

文章目录 DeepSeek推理优化技巧：提升速度与降低成本引言一、模型优化：减少模型参数与计算量1. 模型剪枝（Pruning）2. 模型量化（Quantization）3. 知识蒸馏（Knowledge Distillation） 二…

阅读更多...

深度解析 Sora：从技术原理到多场景实战的 AI 视频生成指南【附学习资料包下载】

深度解析 Sora：从技术原理到多场景实战的 AI 视频生成指南【附学习资料包下载】

一、技术架构与核心能力解析 1.1 时空建模体系的创新突破 Sora 在视频生成领域的核心优势源于其独特的时空建模架构。区别于传统将视频拆解为单帧处理的模式，Sora 采用时空 Patch 嵌入技术，将连续视频序列分割为 32x32 像素的时空块（每个块包含相邻 3 帧画面），通过线性投…

阅读更多...

最新文章