谷歌PaLM杀疯了,已从语言模型进化成机器人大脑??

d8048ed85716ffda3406c4576abe00fe.png

文 | 天于刀刀

开篇小编想了解一下,有多少小伙伴和我一样在看完《复联》后对钢铁侠托尼的智能管家贾维斯非常眼馋,然后坚定了自己 all in 人工智能算法这条(不归)路的?

1eb28482a6d1067c58a821241b2e57be.png

理想中:你是个成熟的 AI 管家,你应该自己学会在家洗衣做菜刷盘子,出门取快递,偶尔穿个机甲打打外星人,到时候记得拍张照,我朋友圈等着用。

现实中:“小爱同学,关灯!”“嘿,Siri。打开网抑云。”

目前业界成熟的落地方案中,大多数都选择将所谓的“智能管家”,也就是语音助手,或称聊天机器人,作为人类和虚拟空间的一个新的输入纽带。

例如一些之前需要人类主动打字搜索的简单问题,现在我们可以通过动动嘴唤醒助手来帮我在虚拟空间中进行检索。

那么有没有什么能够进一步影响到我们的现实生活的机器助手呢?谷歌最新的一项研究表明,也许就在不远的将来,我们可以真正做到动动嘴,指挥机器人帮我们做事啦。[1][2][3]

061d16fa7fd5cb40d641313943e39918.png

同样是使用语言模型处理输入产生输出,随着应用场景从虚拟空间来到现实空间,相对于目前已经有简单应用的虚拟管家来说,机器人面临着更多挑战。

首先是传统的自然语言理解(NLU)问题,往往机器只能够识别短文本的明确命令,对于较长的开放式问题可能就抓瞎了。

撰文的时候小编现场做了一个小实验,分别向 Siri 提出“打开网抑云,播放《听妈妈的话》”以及“今天是我母亲生日,你有什么推荐的音乐吗?”。

结果要么是“我没有找到相关应用”,或者是“你需要先订阅 Apple Music”。

从这个回答中可以看出,Siri 完全没有理解我的语义,表现不够智能。(也许开通 Apple Music 会好一点?笑死)

其次,由于目前大模型生成结果的不确定性,往往输出的结果不一定是合理的。

引用原博客[2]的例子,例如你输入“我不小心把水碰翻了,你能帮帮我吗?”,GPT-3 的回复是“你可以试试真空吸尘器” [4]。这是一个正确的建议,可是万一我家里没有吸尘器怎么办?

另外当问 FLAN [5] 同样的问题,他会使用“对不起,我不是故意的”来道歉,这不是一个有用的回复。

小结一下,目前的难点在于:

  1. 只能接受短文本 (very short) 和明确命令 (hard-code command), 不接受长链命令 (long-horizon tasks)和虚拟目标 (abstract goals);

  2. LM 输出结果可行性较差,且不可控。

因此,谷歌的研究团队想到,能不能使用一种有效的方法来结合语言模型和机器人学习算法的优点,去实现一个落地的“贾维斯”。

那么有没有这样一个语言模型,他既能够理解上下文语义,也可以处理长文本,如果能表现出一定的逻辑能力那就最好不过啦。

还记得 PaLM [6] 吗?能理解上下文语义,通过 emoji 猜测电源名,甚至可以解释笑话的 PaLM,同时也在思维链提示任务中表现出彩。

9462d8e69059d8ecbaebc4957a045540.png

光是能让机器人能接受复杂命令还不够,此外最重要的还是能让它选择一个最贴近现实的选择作为输出。这个性质在机器人问题中被称为可供性 (affordance)。

根据维基百科的定义,在物体的抓取和操纵中,机器人需要学习环境中物体的可供性,即从视觉感知和经验中学习:

  • 物体是否可以被操纵;

  • 学习如何抓取物体,以及;

  • 学习如何操纵物体以达到特定目标。

例如,原则上可以通过多种手部姿势和接近策略来抓住锤子,但有效接触点的集合及其相关的最佳抓握力是有限的。

研究团队使用可供性方程 (affordance function) 来控制机器人在一个特定环境中去选择一个可行的方案。

最终将语言模型 (Say) 和可供性方程 (Can) 相结合,就得到了一个新的解决方案:PaLM-SayCan。

a11e709f21ddfa21d026d528a36cf360.gif

使用 PaLM-SayCan,机器人充当语言模型的“手和眼睛”,而语言模型提供有关任务的高级语义知识。

具体来说,语言模型会根据人机对话的输入生成建议 (Say),而机器人本身也会根据现实情况产生一个行为 (Can),通过融合我们自然得到了一个最合理的行动计划。

博客[2]中还通过 demo 视频[7]展示了 PaLM-SayCan 系统的可解释性。

3bcb95a7fcc14b1fce639be96dbe821e.gif

我们可以看到它根据语言分数(蓝色)、可供性分数(红色)和综合分数(绿色)来考虑最佳选项。

这套方案极大地提升了模型的可解释性,同时看起来也是一个非常通用的解决方案。

能够想到,除了实验中的“厨房”场景外,我们可以轻易地将这套方案应用到客厅、卧室、卫生间,甚至是办公室等其他封闭场景中。

此外,原实验中还有个和我们搞 AI+互联网/软件/金融/等 不太一样的地方在于,他的评价指标有两个:

  1. 计划成功率,表示机器人是否选择了正确的指令;

  2. 执行成功率,表示它是否成功执行了指令。

结果表明,使用 PaLM 的系统取得了 sota,同时也证明了语言模型对机器人技术的改进效果。

在未来,谷歌团队也会继续探索如何更好地驾驭语言模型并且使其更加紧密地和其他领域联系在一起。

72e1e47c53e766ed0f936bed0f05480a.png

不过我还是想吐槽一下,目前放出的 demo 视频里,机器人的表现非常呆板,在进行一些精密操纵的时候(例如拿起一个苹果)往往速度非常慢,视频里好多都是经过五倍速快进剪辑的效果。

此外他的一些行为选择也有限制,例如在视频中,机器人正确地拿着海绵来到了不干净的台面。

正当我以为他下一个动作就是帮你擦桌子的时候,研究人员站起身接过了海绵,轻轻地拍了拍机器人的头,然后擦起了桌子。

搞了半天最后机器人只是帮人类跑了一次腿罢了!看来仿生人的出现还是遥遥无期啊。

最后稍微扩展一下,小编一直在思考如果是在闲聊任务中,我们可不可以设计一个类似可供性分数的对话主线,辅助模型生成更连贯更有逻辑的输出?

如果机器最终实现了有主题有逻辑的对话,那么这个是否就算是智能的体现呢?

欢迎一同探讨,若有相关论文也可推荐交流!

bffa3950ebc84f941aa6f06f24aef9b8.png
3723a3181855010773d462b625beba47.png

卖萌屋作者:天于刀刀

注重 WLB 的工业界反卷斗士,未进化的 NLP 咸鱼一条。专注于研究在各个场景中算法模型的落地情况,希望自己编写的算法有朝一日可以改变世界。目前的兴趣点在于:假新闻检测、深度学习模型可解释性等。

作品推荐

1.腾讯薪酬改革来了!晋升≠加薪?员工到底为何工作?

2.从 Google AI 离职了,这里让我爱不起来

3.百万悬赏!寻找“模型越大,效果越差”的奇葩任务!

4.想通这点,治好 AI 打工人的精神内耗

f7a448e33af6ce2e1cb7b58a23e77dbc.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜广推与求职讨论群

664cdc78587c7859a15e895b1c2c060a.png

[1] Do As I Can, Not As I Say: Grounding Language in Robotic Affordances, https://arxiv.org/pdf/2204.01691.pdf

[2] Towards Helpful Robots: Grounding Language in Robotic Affordances,https://ai.googleblog.com/2022/08/towards-helpful-robots-grounding.html

[3] Grounding language in robotic affordances, https://www.youtube.com/watch?v=E2R1D8RzOlM

[4] Language Models are Few-Shot Learners, https://arxiv.org/abs/2005.14165

[5] Introducing FLAN: More generalizable Language Models with Instruction Fine-Tuning, https://ai.googleblog.com/2021/10/introducing-flan-more-generalizable.html

[6] Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance, https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html

[7] PaLM-SayCan is also interpretable, https://github.com/say-can/say-can.github.io/blob/main/img/demo_sequence_compressed.mp4?raw=true

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/476894.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

程序员面试金典 - 面试题 17.04. 消失的数字(数学/位运算)

1. 题目 数组 nums 包含从0到n的所有整数,但其中缺了一个。 请编写代码找出那个缺失的整数。你有办法在O(n)时间内完成吗? 注意:本题相对书上原题稍作改动 示例 1: 输入:[3,0,1] 输出:2示例 2&#xff1…

前两年在MSDN里找到的HTC示例,一直没用过,先在这里存个备份

下载地址:http://files.cnblogs.com/bobowu/HTC%20Sample%20from%20MSDN.zip包括:calendar、colorpick、coolbar、dataselect、imagerollover、mask、menu、movable、mpc、rowover、slider、tooltips最近只用过movable来实现在地图的拖动效果&#xff0c…

文件标识符无效。使用 fopen 生成有效的文件标识符。_「存储架构」块存储、文件存储和对象存储(第1节)...

全球传输和生成的数据比以往任何时候都多。国际数据公司(IDC)的分析师预计,到2025年,全球数据层将增至163zb。这比2016年16.1 ZB的数据增长了1000%以上。数据大量增加的原因是多方面的:生成数据的来源和设备比以前多得多——嵌入式系统和设备正在收集数据…

微软,把数据中心部署到了海底…

源 | 直观学机械、蓝点网2014年微软首次提出了水下数据中心概念,当时认为这个概念有望为沿海人口提供高速云服务,并节省能源。2015年,微软在太平洋开展为期105天的部署过程中证明了水下数据中心概念是切实可行的。2018年,微软把一…

程序员面试金典 - 面试题 16.15. 珠玑妙算(map计数)

1. 题目 珠玑妙算游戏(the game of master mind)的玩法如下。 计算机有4个槽,每个槽放一个球,颜色可能是红色(R)、黄色(Y)、绿色(G)或蓝色(B&am…

python方向键控制角色_python方向键控制上下左右代码

本文所示代码实现python编程方向键控制图片上下左右,我们首先看下演示结果。 演示:实例代码: bif"1.jpg" mif"2.jpg" import pygame,sys from pygame.locals import * pygame.init() screenpygame.display.set_mode((640…

测试ASP.NET 2.0中Gridview控件高级技巧

ASP.NET 2.0中,新增加的gridview控件的确十分强大,弥补了在asp.net 1.1中,使用datagrid控件时的不足之处。因为在asp.net 1.1中,在使用datagrid时,很多情况下依然要编写大量的代码,十分不方便,而…

一场AI技术引发的金融业“降本增效”

文 | 卖萌酱大家好,我是卖萌酱。“全面赋能千行百业”是AI的重要使命,政务、法律、金融、医疗、制造等传统行业往往智能化程度低,在效率、成本和收益方面蕴藏着巨大的优化空间。其中,金融业,就正在AI技术的赋能下&…

LeetCode 999. 车的可用捕获量

1. 题目 在一个 8 x 8 的棋盘上,有一个白色车(rook)。也可能有空方块,白色的象(bishop)和黑色的卒(pawn)。它们分别以字符 “R”,“.”,“B” 和 “p” 给出…

matlab 转换为正整数_【MATLAB】专题1笔记 MATLAB基础知识

视频课程参考:https://www.bilibili.com/video/BV19J411W7Ta数值问题-->求解算法-->程序实现-->结果分析MATLAB 功能 :数值计算,符号计算,图形绘制,程序流程绘制,工具箱数值计算方法&#xff1a…

showModalDialog和showModelessDialog使用心得

一、showModalDialog和showModelessDialog有什么不同?  showModalDialog:被打开后就会始终保持输入焦点。除非对话框被关闭,否则用户无法切换到主窗口。类似alert的运行效果。  showModelessDialog:被打开后,用户可…

python网络编程内容_Python网络编程

本文要写的内容也称为Python套接字编程,并简单介绍socketserver类。参考教程主要是《Python核心编程》。 首先,客户端/服务器模型,客户端向服务器发送请求,在请求合理的情况下,服务器返回客户端需要的资源,…

程序员面试金典 - 面试题 16.17. 连续数列(DP/分治)

1. 题目 给定一个整数数组(有正数有负数),找出总和最大的连续数列,并返回总和。 示例: 输入: [-2,1,-3,4,-1,2,1,-5,4] 输出: 6 解释: 连续子数组 [4,-1,2,1] 的和最大&#xff0c…

视觉能力提升112%!李飞飞团队让AI进入社会,学会了“骗”标注…

作者 | 李梅编辑 | 陈彩娴来源 | AI科技评论人类从与他人的互动中学习,而目前的人工智能却常常只能在与社会隔离的环境中学习。所以当我们把一个智能体放到真实世界中时,它会不可避免地在遇到大量新的数据,无法应对不断变化的新需求。如何将智…

.Net 1.1下WEB引用Win控件的两个Bug

1.WEB系统引用windows控件的方式来实现页面打印的功能,一直使用比较正常,有一天更新后部分机器不能正常加载控件。后来分析的N久,发现是打印控件上我加了一个Label,使用了Arial Black字体,如果客户的机器上没有这种字体…

程序员面试金典 - 面试题 16.11. 跳水板(数学)

1. 题目 你正在使用一堆木板建造跳水板。 有两种类型的木板,其中长度较短的木板长度为shorter,长度较长的木板长度为longer。 你必须正好使用 k 块木板。编写一个方法,生成跳水板所有可能的长度。 返回的长度需要从小到大排列。 示例&…

信息抽取终于实现了大一统~

2022年了,有人说信息抽取领域早已是诸神黄昏。然而即使这样,依然“内卷”不止。似乎这个卷成麻花的领域已经看不到希望?但是不久前,这个沉寂之地忽然翻起了浪花,一篇发表在ACL2022上的工作,昭示着这个领域终…

python的输出函数_Python

Python print() 函数 描述 print() 方法用于打印输出,最常见的一个函数。 在 Python3.3 版增加了 flush 关键字参数。 print 在 Python3.x 是一个函数,但在 Python2.x 版本不是一个函数,只是一个关键字。 语法 以下是 print() 方法的语法: pr…

ubuntu6.06容易死机的一种解决方法

修改 /etc/X11/xorg.conf 在 Section "Module" 中把下面这句话注视掉。 # Load "dri" 然后,在下面这个Section中(你的可能有些出入,但应该有个相似的Section),把 Driver "ati" 改成 Dri…

程序员面试金典 - 面试题 17.12. BiNode(BST中序遍历)

1. 题目 二叉树数据结构TreeNode可用来表示单向链表(其中left置空,right为下一个链表节点)。 实现一个方法,把二叉搜索树转换为单向链表,要求值的顺序保持不变,转换操作应是原址的,也就是在原始…