prompt终于在机器人领域杀疯了

b1dddbb72c696b0f157dc9d300efc7b3.jpeg

编|杜伟、陈萍
源|机器之心

谷歌机器人团队等在机器人领域构建了一个多任务 transformer 模型,显著改进了对新任务、环境和对象的零样本泛化。

我们知道,机器学习(ML)多个子领域(如 NLP 和 CV)的最新重大进展通过一种共享的通用方法实现,该方法充分利用大规模、多样化数据集以及有效吸收所有数据的表达模型。尽管已经有各种尝试将这种方法应用于机器人技术,但机器人还没能利用到高性能模型。

构成挑战的因素有几个。首先缺乏大规模和多样化机器人数据,这限制了模型吸收广泛机器人经验的能力。数据收集对于机器人技术来说成本高昂且具有挑战性,这是因为数据集管理需要工程量大的自主操作或者使用人类远程操作收集的演示。其次缺乏可以从此类数据集中学习并有效泛化的高表达性、可扩展且速度足够快的实时推理模型。

为了解决这些挑战,谷歌机器人团队等提出了 Robotics Transformer 1 (RT-1)。这是一种多任务模型,可以 tokenize 机器人的输入和输出动作,从而在运行时实现高效推理,使实时控制成为可能。

RT-1 模型在包含 130k 个 episode 的大型真实机器人数据集上进行训练,该数据集涵盖了 700 多项任务,使用 Everyday Robots (EDR) 的 13 台机器人在 17 个月内收集而成。数据集中展示的一组高级技能包括拾取和放置物品、打开和关闭抽屉、将物品放入和取出抽屉、将细长的物品直立放置、敲倒物体、拉出餐巾纸和打开罐子。

83baae0e49710f76af0db3791514c883.png

论文地址:
https://robotics-transformer.github.io/assets/rt1.pdf

项目地址:
https://github.com/google-research/robotics_transformer

该团队对模型和训练集中的许多设计选择进行了仔细评估和消融实验,分析了 tokenization、动作表示和数据集组合的影响。与现有技术相比,RT-1 可以显著改进对新任务、环境和对象的零样本泛化。RT-1 可以以 97% 的成功率执行 700 多个训练指令,并且可以泛化到新的任务、干扰因素和背景。

c38fbbb20eab2449804bb97bf853f3b6.gif
▲RT-1 吸收了大量数据,包括涉及多任务、对象和环境的机器人轨迹,实现了更好性能和泛化能力。

最后,该团队将 RT-1 代码开源,希望为未来扩大机器人学习的研究提供宝贵的资源。

01d137b8c2fb1d227782517799c01cf8.pngRT-1 模型概览14a016c97a97c17bde324eb766855304.png

RT-1 建立在一个 transformer 架构上,该架构从机器人相机中获取瞬时图像以及以自然语言表达的任务描述作为输入,并直接输出 tokenized 动作。RT-1 的架构类似于针对具有因果掩蔽的标准分类交叉熵目标训练的 decoder-only 序列模型。RT-1 的主要功能包括图像和动作 tokenization 以及 token 压缩。

图像 tokenization。该团队通过在 ImageNet 上预训练的 EfficientNet-B3 模型传递图像,然后将生成的 9×9×512 空间特征图展平为 81 个 tokens。图像 tokenizer 以自然语言任务指令为条件,并使用初始化为身份的 FiLM 层在早期提取与任务相关的图像特征。

动作 tokenization。机器人的动作维度包括手臂运动的 7 个变量(x、y、z、翻转、俯仰、摇摆、打开夹具)、3 个基本运动变量(x、y、摇摆)以及一个在控制臂、控制 base 或终止 episode 三种模式之间切换的额外具体变量。每个动作维度被离散化为 256 个 bins。

Token 压缩。RT-1 自适应地选择图像 tokens 的软组合,这些组合根据它们对使用元素级注意力模块 TokenLearner 学习的影响进行压缩,使推理速度提升 2.4 倍以上。

2a31155df5e7e8ecd61195e71f60c6be.png
▲RT-1 架构、数据集和评估概览图。

5e8c299b653ae18e24653e3e205c93ba.png实验和结果247ed02c051937ab469ca37d1c7c5c65.png

为了更好地理解 RT-1 的泛化能力,该团队在三个基准上进行了实验:Gato、BC-Z(与 RT-1 参数量相同)和 BC-Z XL,并通过四个类别进行比较。

  • 在所见到的任务上的表现;

  • 在没见过任务上的表现:在训练集中,机器人的技能和对象是分开看到的,但以新颖的方式结合在一起;

  • 鲁棒性:在有干扰(有 9 个干扰,此外还有遮挡情况)、改变背景(换个新厨房、光照不同等)上的任务表现;

  • 长情景:在真实厨房中执行 SayCan 类型的自然语言指令。

RT-1 在四个类别的比较中都大大超过基线,表现出极强的泛化性和鲁棒性。

7296f749efb12454c51bf21f1d3a8a14.png
▲RT-1 与基线性能对比。

整合异构数据源

为了进一步挖掘 RT-1 的性能,该团队还将训练另一个机器人的数据用来训练 RT-1,目的有两个:(1) 测试模型在新数据上是否保持其在原始任务上的性能;(2) 观察模型在新的以及不同数据上泛化能力。

4c2359a3070547f946433968cfc93721.png
▲从多个机器人那里收集数据,用来训练 RT-1。

结果表明,RT-1 能够通过观察其他机器人的经验来获得新技能。特别是,当 RT-1 同时使用来自 Kuka bin-picking 数据和 EDR 数据进行训练时,准确率达到 39%。比仅使用 EDR 数据训练时的 22% 准确率提高了近 2 倍。

当 RT-1 仅在 Kuka bin-picking 数据上进行训练,然后在 EDR robot bin-picking 数据上评估时,准确率为 0。

56f99de37e68cea564d497392df370b4.png

SayCan 任务

RT-1 的高性能和泛化能力可以通过 SayCan 实现远距离、移动操作任务。SayCan 算法是谷歌在今年提出的,在这个算法中,谷歌让机器人充当语言模型的「手和眼睛」,而语言模型提供有关任务的高级语义知识。

该团队在两个真实的 Kitchen 中进行了评估,Kitchen2 构成了一个比 Kitchen1 更具挑战性的泛化场景。由结果可得,SayCan 与 RT-1 在 Kitchen1 中实现了 67% 的执行成功率,优于其他基线。在 Kitchen2 中,SayCan 与 Gato 以及 SayCan 与 BCZ 的性能下降,而 RT-1 没有出现明显的下降。

3350e48eb1758408eb658f0159ef9936.png

下面的视频展示了 PaLM-SayCan-RT1 在多个真实厨房中执行长期任务的示例。

4b3e4a99f0e92b987e3bee7fa1657cd8.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

 9af34665e619ceaab9e716f571990c38.png

[1]https://ai.googleblog.com/2022/12/rt-1-robotics-transformer-for-real.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/476501.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python打开excel数据库_使用python导入excel文件中的mssql数据库数据

我试图用python导入excel文件中的mssql数据库数据。我的数据在excel表格中的顺序不正确。e、 g它显示第1列数据,然后是第3列,第2列,然后是第4列,依此类推。我使用以下脚本:import pyodbcimport csvconnection pyodbc.…

雷鸟安装的插件

lightning日历功能 同步lightning和google日历的插件:provider_for_google_calendar 使用可以参考:http://jackbin.blogspot.com/2008/02/lightning-5.html 导入OE邮件时用了ImportExportTools转载于:https://www.cnblogs.com/cerxp/archive/2008/09/28/…

LeetCode 66. 加一

1. 题目 给定一个由整数组成的非空数组所表示的非负整数,在该数的基础上加一。 最高位数字存放在数组的首位, 数组中每个元素只存储单个数字。 你可以假设除了整数 0 之外,这个整数不会以零开头。 示例 1: 输入: [1,2,3] 输出: [1,2,4] 解…

ChatGPT的前世今生

作者|符尧等整理|李rumor最近有幸看到了一篇十分深度剖析GPT系列模型的文章,读到后赶紧与作者联系,没想到他们很快就翻译成了中文,在这里分享给大家。英文原版:https://franxyao.github.io/blog.html作者:符…

文件管理(一)

文件是同一类型元素的有序集合,是内存与外设间传输数据的渠道。一些外设如显示器、键盘、打印机等都可以看作文件,但最常用的还是磁盘文件,这也是本章我们主要讨论的对象。 Delphi继承了Object Pascal的文件管理功能,并有很大的发…

LeetCode 95. 不同的二叉搜索树 II(递归)

1. 题目 给定一个整数 n,生成所有由 1 … n 为节点所组成的二叉搜索树。 示例: 输入: 3 输出: [[1,null,3,2],[3,2,null,1],[3,1,null,null,2],[2,1,3],[1,null,2,null,3] ] 解释: 以上的输出对应以下 5 种不同结构的二叉搜索树:1 3 3 …

离谱!以AI数据标注为名,偷拍女性上厕所?

源|新智元文|好困 David你绝对想不到,自己在家上厕所的「实时动态」,不仅被拿去给AI做了训练数据,而且还被发到了网上!最近,《麻省理工科技评论》在一篇万字长文调查中,就曝光了这样…

treemap怎么保证有序_干货!208道面试题教你怎么通过面试!

[如您对本文感兴趣,请点击标题下方蓝色“拓达IT训练营”添加关注,每天都有精彩实用文章呈现给您]一、Java 基础1.JDK 和 JRE 有什么区别?2. 和 equals 的区别是什么?3.两个对象的 hashCode()相同,则 equals()也一定为 …

看美女无数

看美女无数——代腾飞 2008年9月30日 于成都漫漫长假,却不知如何渡大千世界,却找不到去处只好独自骑着车儿压马路 来来往往,美女无数虽闭城不出,却也大饱眼福知足,知足 坐看春熙路,看美女购物熙来攘往&am…

LeetCode 107. 二叉树的层次遍历 II(队列)

1. 题目 给定一个二叉树,返回其节点值自底向上的层次遍历。 (即按从叶子节点所在层到根节点所在的层,逐层从左向右遍历) 例如: 给定二叉树 [3,9,20,null,null,15,7],3/ \9 20/ \15 7 返回其自底向上的层次遍历为…

什么是document对象?如何获取文档对象上的元素?_dom对象

DOM对象1. DOM树当网页被加载时,浏览器会创建页面的文档对象模型(Document Object Model),通过 HTML DOM对象,可访问 JavaScript HTML 文档的所有元素。HTML DOM 模型被构造为对象的树。节点(Node):HTML文档…

用python生成云词汇_用python生成词云wordcloud

代码如下:import wordcloudimport jiebaexcludes{"将军","却说","二人","不可","荆州","不能","如此","商议","如何","主公","军士","左右&q…

JavaScript在内层循环中断外层循环

很少见的用法…… var elem1 [1,2,3,5,6];var elem2 [7,5,0];label1 : { for (var i 0; i < 10; i) { for (var j 0; j < 10; j) { if (elem1[i] elem2[j]) { break label1; } } }} 转载于:https://www.c…

综述论文:机器学习中的模型评价、模型选择与算法选择!

源&#xff5c;机器之心本论文回顾了用于解决模型评估、模型选择和算法选择三项任务的不同技术&#xff0c;并参考理论和实证研究讨论了每一项技术的主要优势和劣势。进而&#xff0c;给出建议以促进机器学习研究与应用方面的最佳实践。论文链接&#xff1a;https://sebastianr…

阿里巴巴后台的使用体验

今天花了点时间&#xff0c;使用了一下阿里巴巴的会员后台&#xff0c;感叹一句“它的成功是有它的道理的”。在功能模块的使用上&#xff0c;它都提供了帮助&#xff0c;这种帮助不是简单的一个列表或者一篇文章&#xff0c;而是一种层次性的服务。首先会有一个所对应的功能模…

LeetCode 167. 两数之和 II - 输入有序数组(双指针)

1. 题目 给定一个已按照升序排列 的有序数组&#xff0c;找到两个数使得它们相加之和等于目标数。 函数应该返回这两个下标值 index1 和 index2&#xff0c;其中 index1 必须小于 index2。 说明: 返回的下标值&#xff08;index1 和 index2&#xff09;不是从零开始的。你可…

lcd液晶字体_等离子电视与液晶电视的区别

阅读本文前&#xff0c;请您先点击上面的蓝色字体&#xff0c;再点击“关注”&#xff0c;这样您就可以继续免费收到最新文章了。每天都有分享。完全是免费订阅&#xff0c;请放心关注。注&#xff1a;本文转载自网络&#xff0c;不代表本平台立场&#xff0c;仅供读者参考&…

母版中menu控件上传后出现脚本错误

这几天帮朋友做个小网站&#xff0c;为了网站更容易扩展&#xff0c;所以使用了.menu控件做网站导行&#xff0e;本来在做的时候没出错&#xff0c;可上 传之后却显示不出&#xff0c;动态菜单的部分&#xff0c;并且提示脚本错误&#xff0e;于是乎上网开始找答案&#xff0c;…

python编程入门课_程序设计入门—Python

知识单元一&#xff1a;程序设计语言基础第1周&#xff1a;程序设计的基础知识教学内容&#xff1a;计算的基本概念&#xff0c;计算机程序设计语言的历史&#xff0c;Python语言的发展简史及语言的特点&#xff0c;程序设计语言的基本语法教学要求&#xff1a;了解冯诺依曼计算…

稚晖君被曝离职华为!两年前加入华为天才少年计划,下一步创业方向是机器人...

文&#xff5c;羿阁 萧箫 发自 凹非寺源&#xff5c;量子位以“天才少年”身份加入华为的稚晖君&#xff0c;被曝已经离职&#xff0c;将开启创业&#xff01;虽然本人还没公开确认这一消息&#xff0c;但据华为员工爆料&#xff0c;目前华为内部已经搜不到对应的工号。要知道&…