什么是功能型网站郑州高端网站定制
news/
2025/9/24 6:32:01/
文章来源:
什么是功能型网站,郑州高端网站定制,商丘市网站建设公司,牡丹江制作网站ChatGPT狂飙160天#xff0c;世界已经不是之前的样子。 新建了免费的人工智能中文站https://ai.weoknow.com 新建了收费的人工智能中文站https://ai.hzytsoft.cn/
更多资源欢迎关注 在探索人工智能边界时#xff0c;我们时常惊叹于人类孩童的学习能力 —— 可以轻易地将他人… ChatGPT狂飙160天世界已经不是之前的样子。 新建了免费的人工智能中文站https://ai.weoknow.com 新建了收费的人工智能中文站https://ai.hzytsoft.cn/
更多资源欢迎关注 在探索人工智能边界时我们时常惊叹于人类孩童的学习能力 —— 可以轻易地将他人的动作映射到自己的视角进而模仿并创新。当我们追求更高阶的人工智能的时候无非是希望赋予机器这种与生俱来的天赋。 由上海人工智能实验室南京大学中科院深圳先进技术研究院牵头联合东京大学复旦大学浙江大学中国科学技术大学等高校的学生和研究者共同公布了跨视角技能学习数据集EgoExoLearn为机器人赋予了通过观察他人学习新动作的能力。 论文链接https://arxiv.org/abs/2403.16182 代码与数据集链接https://github.com/OpenGVLab/EgoExoLearn EgoExoLearn 数据集独辟蹊径采集了第一视角与第三视角的视频素材。第一视角视频捕捉了人们学习第三视角演示动作的全过程这种视角的转换与融合为机器模拟人类学习模式提供了宝贵的数据资源。 数据集的构建不仅涵盖了日常生活的琐碎场景更延伸到了专业实验室的复杂操作。EgoExoLearn 精心收录了总计 120 小时的视角与示范视频旨在让机器在多种环境下都能有效学习。 除视频外研究者还记录了高质量的注视数据并辅以详尽的多模态标注。这些数据与标注的结合构建了一个全面模拟人类学习过程的平台有助于解决机器在不同视角下对异步动作过程的建模难题。 为了全面评估 EgoExoLearn 数据集的价值研究者提出了一系列基准测试如跨视角关联、跨视角行动规划及跨视角参考技能评估等并进行了深入的分析。展望未来EgoExoLearn 将成为跨视角行动桥接的重要基石为机器人无缝学习真实世界中的人类行为提供坚实支撑。 期待 EgoExoLearn 数据集能助力 AI 技术的进一步突破推动机器人从单纯的模仿走向真正的智能实现与人类社会的和谐共存与共同发展。 研究背景 从孩童时期开始人类就具备观察他人行为并将其映射到自己视角的能力这种能力在进行高试错成本的实际操作如危险化学实验时尤为有益。随着人工智能系统的最新进展下一代 AI 智能体将会在更通用的场景中执行任务。 然而与人类不同训练这些 AI 智能体通常需要在类似环境中拍摄的演示视频作为训练数据这些视频的视角还必须与 AI 智能体一致例如第一视角。尽管有很多工作尝试了在不同场景中收集此类数据对于 AI 智能体来说直接从不同地点和不同视角拍摄的演示视频中学习仍然至关重要。实现这一能力可以充分利用大规模公开教学视频数据的潜力并且在人机合作场景中尤其是在新环境中有巨大作用。 目前朝这个目标努力的工作大致可以分为两个方向。一种是在模拟环境中学习模型但这些模型在现实世界中的泛化仍然很困难。另一个方向是从现实世界中的人类活动中学习。然而直接结合现有的多视角数据集的尝试通常会产生质量或规模较差的数据集。同时目前这个方向的少数现有数据集只记录了在同一环境和时间同步方式下拍摄的自我中心和外部中心视角视频。在现实中跟随演示时通常需要桥接在不同地点和不同时间执行的一系列程序性动作。目前还没有可用于探索如何在现实的自我中心和外部中心视角中桥接异步程序性活动的数据集。 为了解决数据集缺乏问题研究者提出了 EgoExoLearn这是一个大规模数据集包含演示视频和相应的第一视角跟做视频。其中摄像机佩戴者跟随演示视频中的动作并在不同环境中执行相同任务。针对日常生活辅助和专业技能辅助这两个潜在应用EgoExoLearn 包含了 747 个视频序列总时长达 120 小时涵盖场景包括日常食物制作和专业实验室实验。值得注意的是EgoExoLearn 中的第一视角视频包含了显示人类执行任务时视觉注意力的眼动信号。这为更好地连接第一视角和第三视角中的行动提供了宝贵的线索。 更进一步研究者分析了人类的跨视角理解能力并相应地引入了新的任务和基准希望这些可以对开发具有类似能力的下一代具身 AI 智能体起到重要帮助。当人类执行一个动作时他 / 她可以将自我中心视角中正在进行的动作与演示中相应的动作联系起来并进行描述。通过演示视频中的知识人类可以知道所需的动作步骤并预测下一步应该是什么。此外通过与演示的比较人类还可以评估自己的技能水平。 基于上述分析研究者设计了以下新任务1) 跨视角关联2) 跨视角动作理解3) 跨视角参考技能评估以及 4) 跨视角参考视频字幕。每个基准都经过精心定义、标注并具体实现了相应模型。此外研究者还首次探索了眼动在这些任务中的作用。研究者希望这个数据集能够为未来链接不同视角中的异步程序性动作的工作提供资源从而激发设计擅长从现实世界人类演示中学习并将程序性动作映射到机器人中心视角的 AI 智能体。 数据集介绍 场景和任务 研究者考虑了程序性的目标导向任务这些任务涵盖了从日常的食物制作到专业的实验室实验。这种选择基于它们所体现的两个未来体现性 AI 代理需要能够桥接自我 - 外部活动的潜在领域日常生活辅助和专业支持。 具体来说EgoExoLearn 包含了 5 种日常任务例如烹饪和 3 种专业实验室任务例如固相肽合成。研究者在 4 个不同的厨房和 3 个不同的实验室中录制了自我中心视角的视频。下表显示了每个任务的视频数量以及平均视频长度。 数据收集流程 在每次收集开始之前参与者需要完成一份问卷收集基本的人口统计信息以及他们自我评估的执行指定任务的专长。然后在每次录制中参与者将被要求从提供的列表中选择一个或几个外部中心视角的演示视频并仔细学习详细的程序。一旦准备好了他们将戴上 Pupil Invisible Glasses完成眼动校准并开始复制演示视频中执行的任务。虽然不鼓励但参与者在录制过程中被允许重新观看演示视频。在每次录制之后参与者被要求重新进行眼动校准以确保眼动数据的准确性。对于 5 个日常任务外部中心演示视频是手动从 YouTube 等在线视频平台策划的。对于实验室实验外部中心演示视频是由资深实验室成员录制的教程。 数据集标注与统计 为了促进本文数据集在开发能够有效弥合自我和外部视角之间差距的算法方面研究者提供了详细的多模态人类标注。粗略级别的语言标注、细致级别的语言标注、翻译与解析、技能水平标注。据了解目前还没有与本文设置相同、可以直接比较的数据集。因此研究者在下表中列举了本文数据集的各个方面并与相关数据集进行了比较分析。EgoExoLearn 以其「视觉演示跟随」设置独特地丰富了该领域。除了这一独特设置之外它还是第一个包括时间限定的语言字幕、标注的跨视角关联和多标签视频片段的自我中心数据集。同其他第一视角视频数据集的对比如下 新基准 Benchmarks 为了评估连接异步的第一视角 - 第三视角程序性动作的能力研究者引入了 4 个新的基准 benchmark如下图所示 1) 跨视角关联 (cross-view association)探究模型有没有将不同视角的相同动作联系起来的能力分为 Ego2Exo 和 Exo2Ego 两个设定。在ego2exo的情况下给定一个自我中心视频模型需要从一组候选的外部中心样本中预测出执行相同动作的相应外部中心视频。这里考验了模型对单一视角动作的理解能力还考验了模型在跨视角情境下的泛化能力和预测准确性。基线模型与结果如下 2) 跨视角动作理解 (cross-view action understanding)细分为三个子任务跨视角动作预测、跨视角动作规划和跨视角动作分割。此外研究者还探索了注视点gaze在协助这些任务中的作用。下图是四种训练设定与基线模型性能 3) 跨视角参考技能评估 (cross-view referenced skill assessment) 主要目标是评估第一视角操作者的技能水准。研究者引入了第三视角的专家操作视频作为参考通过与参考视频的对比技能评估可以变得更加准确。基线模型与结果如下图所示 4) 跨视角参考视频描述 (cross-view referenced captioning)。使用另一个视角的视频作为参考此项任务旨在提高模型利用跨视角参考而更好的进行视频描述的能力。模型设计和基线性能如下 ChatGPT狂飙160天世界已经不是之前的样子。 新建了免费的人工智能中文站https://ai.weoknow.com 新建了收费的人工智能中文站https://ai.hzytsoft.cn/
更多资源欢迎关注
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/915084.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!