视觉能力提升112%!李飞飞团队让AI进入社会,学会了“骗”标注…

a18ed50f9039e8f321e1c248a05280eb.png

作者 | 李梅
编辑 | 陈彩娴
来源 | AI科技评论

人类从与他人的互动中学习,而目前的人工智能却常常只能在与社会隔离的环境中学习。所以当我们把一个智能体放到真实世界中时,它会不可避免地在遇到大量新的数据,无法应对不断变化的新需求。

如何将智能体从只有一堆书的房间里“解放”出来,让它在广阔的社会情境中学习,是一个新的挑战。

最近,斯坦福大学计算机系的 Ranjay Krishna、Donsuk Lee、李飞飞、Michael Bernstein 等人针对此问题提出了一种新的研究框架:社会化人工智能(socially situated AI),即智能体通过在现实社会环境中与人的持续互动来学习。 论文“Socially situated artificial intelligence enables learning from human interaction”已发表在美国科学院院刊(PNAS)上。

5e01a6bc30f71d7bef895a2555aa4103.png

论文地址:
https://www.pnas.org/doi/epdf/10.1073/pnas.2115730119

在这项工作中,研究团队将社会化 AI 形式化为一个强化学习的过程,即智能体通过从社会互动中获取的奖励来学习识别有信息量的问题。在一个视觉问答任务的测试中,与其他智能体相比,社会化智能体识别新视觉信息的性能提高了 112%。

1 社会化 AI 的强化学习框架

目前,在迭代扩展模型能力时,主动学习是最常用的一个框架。它的目标是优化一系列标注请求以获取新的数据,并将新数据将用于以尽可能少的请求来提高模型的性能。

主动学习已经被形式化为强化学习的过程,其中,真正的人类角色被移除,只假设存在一个能为所有请求提供标签的“预言机”。

尽管纯粹的主动学习方法也可以通过社会环境中的互动来收集新数据,但从用户角度看,他们并不原意充当“预言机”的角色来做重复提供标签的劳动,这就打破了主动学习的基本假设。

所以,我们必须探索智能体真正与人交互的学习方法。要开发社会化的 AI,智能体不仅要收集数据来学习新概念,还要学习如何与人互动来收集数据。

而且,智能体必须要在交互学习(interacting to learn)和学习交互(learning to interact)这两个目标之间进行权衡。这非常具有挑战性,因为智能体要遍历的可能交互空间是巨大的,只有一部分社会交互空间是有用的,并且信息交互空间还会随着智能体的学习进程而不断变化。

在强化学习中,我们将可能的交互形式化为行动空间,将反馈形式化为奖励,需要数亿次交互才能获得具有信息量和亲社会的交互的子空间,这让很多研究人员望而却步。所以,目前从与人类交互中学习的方法,通常只局限于人工标注或者小的工作空间(如只有几十个动作的游戏和仿真环境)。

为此,研究团队将社会化的 AI 形式化为一个迭代强化学习问题。

3eda66de57b245eabab2ea16be5841c4.png
▲图注:社会化 AI 的强化学习框架

其框架描述如下:

一个智能体被放置在社会环境 E=(S,A,P,P0) 当中,它的目标是收集数据,以尽可能少的交互来优化模型的性能;

S 是环境状态,如对话智能体的对话历史,或机器人智能体在三维世界中当前位置;

A 是智能体可以发起的与人交互的可能空间,如对话智能体可以询问的一组语句,或机器人智能体可以执行的一组动作。;

P:S × A → S 是过渡动力学(transition dynamics),如使用过渡函数(transition function)编码人们对智能体历史行为的反应以及环境的变化。;

最后,P0 是初始状态分布的概率测度。

总结而言,这样一个迭代强化学习的过程包括三个重要的方面:改进底层模型、发现社会规范、更新交互策略。它们贯穿着智能体的整个生命周期。

其中,智能体在人们可能会或可能不会做出信息回应的社会环境中与人进行互动,从而改进底层模型。只有当人的回应包含对智能体有用的新信息时,回应才是有用的。因此,智能体必须与环境中数十万人的单次交互,从中选择能够引发对模型有用的新概念的社会互动。

为了平衡智能体的交互学习和学习交互两个目标,我们可以引入知识奖励(knowledge reward)来引导智能体进行交互以获得有用的新概念;同时采用交互奖励(interaction reward)来引导智能体进行符合环境中社会规范的交互。

在使用新概念改进模型的基础上,智能体会更新其策略,开始学习如何就人们有兴趣回应的新概念提出问题,来改进自身性能还比较差的部分。

2 从问答互动中改进视觉模型

为了验证社会化 AI 框架在计算机视觉中的实用性,作者在照片共享社交网络应用 Instagram 上部署了一个社会化智能体,它向人们提出自然语言问题,并从人的回应中提取答案,收集视觉知识。

这种使用自然语言来获取视觉知识的方法,可以用来测试很多计算机视觉识别任务,如对象检测(“图像中有什么?”)、细粒度识别(“花瓶里是什么花?”)、属性分类(“这张桌子是用什么材料做的?”)、知识库推理(“这份食物是素食吗?”)和常识推理(“这张照片是在冬天拍摄的吗?”)等等。

在这项工作中,研究团队设计了一个计算机视觉问答模型,其输入是一张图像和相应的自然语言问题,输出是一个自然语言答案。智能体提出的问题非常多样,如下图。

67255c886fd912fb0050b8aac8fe4c37.png
▲图注:社会化智能体在社交媒体上发起的互动示例

智能体的目标是从与人的交互中获得数据,提高模型识别视觉概念的能力。为了达到这个目标,智能体需要一些“奖励”。如上文所述的框架,作者引入了知识奖励和互动奖励。

知识奖励衡量模型的在识别任务中的确定性。在刚开始,识别模型不知道如何识别任何概念,但随着看到的特定概念的增长,它会对自己的判断更加肯定。比如,如果人们帮助智能体将图像中的动物识别为鹿,那么它的不确定性就会减少。

交互奖励则引导智能体的行为符合社区规范。如在社交网络中,人们更喜欢回答较短的问题、提供事实知识以及回避含糊不清的问题。所以智能体的每一次交互都会被标记为积极(产生了新信息)或消极(未获得新信息),从而被不断训练成亲社会的。

最后,是如何寻找有用的语言交互问题。这是一个组合性的搜索问题。一种直接的方法可以将智能体的策略设计成一个从图像到提问的生成模型。随着模型性能的提升,信息交互的空间会不断变化,因此组合搜索过程需要反复重复。

为了使搜索过程更易于处理,作者使用现有的信息最大化变分自动编码器来学习现实中人与人交互的表示:通过重新配置策略将输入图像映射到表示空间中,并通过设计解码器从表示空间映射到单词序列。

3 更少的交互,更高的识别准确率

在社会化 AI 的框架中,智能体同时有两个目标:一个发起社交互动,让人们根据信息数据作出回应;另一个是通过收集有用的数据来改进其基础模型。这两个目标也成了智能体的评估指标。

首先,为了评估该智能体获得回应的能力,我们需要测量对它所提问题的信息回应率(Informative Response Rate),也就是它收到问题答案(即获得有用的交互)的交互百分比。较高的信息回应率意味着对智能体对隐性社会规范有更好的理解,而较低的信息回应率则意味着人们不给予回应,这会减慢甚至停止智能体的学习进程。

其次,为了评估智能体识别新的视觉概念的能力,研究人员使用由 Amazon Mechanical Turk 的注释器收集的 50104 个社交媒体图像、问题和答案,构成测试集,来评估视觉识别模型的准确率。

此外,为了对照和比较使用社会化 AI 框架所涉及的社会化智能体与其他智能体的区别,作者还部署了一个仅使用交互奖励的人类偏好智能体,一个仅使用知识奖励的主动学习智能体,以及一个基线智能体。

这个基线智能体不使用预训练的交互表示作为动作空间,它允许微调解码器的参数,使用整个组合词汇空间作为动作空间。而且,它同时使用交互奖励和知识奖励,并额外添加了语言建模奖励,以鼓励它生成语法正确的语言。

所有这些智能体都使用近端策略梯度(proximal policy gradients)进行训练,而且都使用相同数量的数据进行初始化,并具有相同的策略和解码器架构。

实验进行了 8 个月,每个智能体可以发起至少 20 万次交互。当它们与人交互、并收集新的视觉知识时,信息回应率和识别准确率的变化结果表明,社会化智能体整体上优于其他智能体。

信息回应率更高

如下图,在 236000 次互动中,社会化智能体的信息回应率从最初的 22% 提高到 33%,相对提高了 50%。相比之下,主动学习和基线智能体在每次迭代后获得的回应较少,分别为 6% 和 12.3%。

65f1988b3f9f62035ca07cdad8b34a4f.png
▲图注:信息回应率与发起的交互次数的关系。社会化智能体(绿色)和人类偏好的智能体(紫色)都使用交互奖励,在交互次数提高的同时信息回应率也更高;其他智能体的信息回应率随着交互次数的增加而下降,这是因为交互会阻碍它们的数据采集。

具体来看,基线智能体在尽力探索所有可能的语言交互组合空间时,不可避免地会产生不连贯的问题,这导致了回应率的下降,并产生一个恶性循环,从而无法识别有用的交互。回应率下降到 6% 以后,研究人员将其终止。

主动学习智能体的弊端则在于它会提出更长、更难的问题,无法引起热人们的兴趣。例如,要回答“这些工具是为左撇子还是右撇子设计的?”这个问题,还得知道有关特定工具的知识以及是否可以用任何一只手操作。

人类偏好智能体的回应率最高,但它的提问又太简单了。比如,它会问“这件衬衫是什么颜色的?”

可以看到,当前实验中智能体的最高回应率是 33%,那么这一数值还有多少上升空间呢?研究人员又进行了一项实验,聘请标注人员来人工编辑问题,以增加智能体获得回应的可能性。最终,智能体获得了 37% 的回应率,这代表了人类从既定社会环境中获得回应的平均能力。所以,智能体还有 4% 的社交能力提升空间。

识别准确率更高

再来看这些智能体在使用收集的数据来改进视觉模型方面表现如何。

与其他智能体相比,社会化智能体能使用更少的交互来提高识别准确率。它在 236000 次交互中实现了 39.44% 的模型性能(下图 B),从中收到了 70000 条回应(下图 C)。

e5a5e7a3c7529676d503441251f57b3a.png
▲图注:视觉模型性能与智能体发起的交互次数之间的关系。社会化智能体和主动学习智能体(橙色)都使用知识奖励来收集有用数据,但主动学习智能体本身缺少交互,要达到同样性能,它需要更多交互。
30cd1064c49d61fd9fa9d7d2c2f4b27f.png
▲图注:视觉模型性能与来自人的回应数量的关系。社会化智能体需要权衡知识与交互两种奖励,其准确率的提高与主动学习智能体相当,而后者只能最大化知识奖励。

相比之下,主动学习智能体共发起了 274893 次交互,但仅收到 30000 条回应,并且性能开始饱和,达到 31.4%,回应率也下降到 12.3%。

这再次表明,在某些社会环境中,纯粹的主动学习方法是不可行的。

而人类偏好智能体每次交互虽然都会收到更多回应,但它收集的数据并没有改善视觉模型。因为它倾向于收集一小部分问题的答案,因此它的底层视觉模型开始过拟合,最后只生成与时间相关或与颜色相关的输出。

基线智能体也暴露出它的问题,即不连贯,收集的数据也没有用。

获取比传统数据集更多的新信息

最后,研究团队对使用社会化智能体收集的数据进行的训练与使用现有数据集中的数据进行的训练作了比较。

结果表明,前者的识别准确率远高于后者,这说明社会化智能体可以获得传统数据集中不存在的新信息。

557ce297469021359ea0ae64a4d74231.png
▲图注:从社会互动中收集的数据与从传统数据集中的数据进行训练的准确率比较。使用来自现有数据集的相同数量的标签进行训练,仅将准确度从 11.24% 提高到 17.45%;而使用来自社会互动的数据进行训练时,准确度从 18.13% 提高到 39.44%。

总结一下,这项研究的重要创新之处在于它提出了一个智能体从与人的交互中学习的形式框架,并通过使用语言交互的视觉模型验证了该框架的实用性。作者相信,这项工作将有助于更广泛的交互式智能体的研究。

933619c9921a7fffa091afdb230731e8.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/476880.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

.Net 1.1下WEB引用Win控件的两个Bug

1.WEB系统引用windows控件的方式来实现页面打印的功能,一直使用比较正常,有一天更新后部分机器不能正常加载控件。后来分析的N久,发现是打印控件上我加了一个Label,使用了Arial Black字体,如果客户的机器上没有这种字体…

程序员面试金典 - 面试题 16.11. 跳水板(数学)

1. 题目 你正在使用一堆木板建造跳水板。 有两种类型的木板,其中长度较短的木板长度为shorter,长度较长的木板长度为longer。 你必须正好使用 k 块木板。编写一个方法,生成跳水板所有可能的长度。 返回的长度需要从小到大排列。 示例&…

信息抽取终于实现了大一统~

2022年了,有人说信息抽取领域早已是诸神黄昏。然而即使这样,依然“内卷”不止。似乎这个卷成麻花的领域已经看不到希望?但是不久前,这个沉寂之地忽然翻起了浪花,一篇发表在ACL2022上的工作,昭示着这个领域终…

python的输出函数_Python

Python print() 函数 描述 print() 方法用于打印输出,最常见的一个函数。 在 Python3.3 版增加了 flush 关键字参数。 print 在 Python3.x 是一个函数,但在 Python2.x 版本不是一个函数,只是一个关键字。 语法 以下是 print() 方法的语法: pr…

ubuntu6.06容易死机的一种解决方法

修改 /etc/X11/xorg.conf 在 Section "Module" 中把下面这句话注视掉。 # Load "dri" 然后,在下面这个Section中(你的可能有些出入,但应该有个相似的Section),把 Driver "ati" 改成 Dri…

程序员面试金典 - 面试题 17.12. BiNode(BST中序遍历)

1. 题目 二叉树数据结构TreeNode可用来表示单向链表(其中left置空,right为下一个链表节点)。 实现一个方法,把二叉搜索树转换为单向链表,要求值的顺序保持不变,转换操作应是原址的,也就是在原始…

从大一统视角理解扩散模型(Diffusion Models)

文 | 中森知乎资料来源这篇文章是近期笔者阅读扩散模型的一些技术博客和概览的一篇梳理。主要参考的内容来自Calvin luo的论文,针对的对象主要是对扩散模型已经有一些基础了解的读者。Calvin luo 的这篇论文为理解扩散模型提供了一个统一的视角,尤其是其…

python开三次方_用python计算三次方根

我试图在python中计算以下函数:f(x) (1 cos(x))^(1/3) def eval( i ): return math.pow( (1 math.cos( i )), 1/3) 为什么它总是返回给我1? 我试图计算积分的Right和Left近似值,后者应用Simpsons Rule,但是Python似乎不喜欢这个…

程序员面试金典 - 面试题 16.05. 阶乘尾数(5的因子)

1. 题目 设计一个算法,算出 n 阶乘有多少个尾随零。 示例 1: 输入: 3 输出: 0 解释: 3! 6, 尾数中没有零。示例 2: 输入: 5 输出: 1 解释: 5! 120, 尾数中有 1 个零. 说明: 你算法的时间复杂度应为 O(log n) 。来源:力扣(LeetCode&#x…

XML动态排序(1)

<?xml version"1.0" encoding"gb2312" ?><?xml-stylesheet type"text/xsl" href"paixu.xsl" ?><BlueIdea><team><blue_ID>1</blue_ID><blue_name>Sailflying</blue_name><blu…

python绘画_python学画画(上)

下载W3Cschool手机App&#xff0c;0基础随时随地学编程 导语 本来想用神经网络让计算机学会画铅笔画和素描的&#xff0c;后来发现其实不用神经网络效果也还可以&#xff0c;那么系列上就从简单的入手&#xff01; 先放图哈&#xff01;沙画&#xff1a;铅笔画&#xff1a;文件…

抖音、Tiktok危机!谷歌AI短视频生成模型,效果惊艳了

文 | 梦晨 Pine(发自凹非寺)源 | 量子位内容生成AI进入视频时代&#xff01;Meta发布「用嘴做视频」仅一周&#xff0c;谷歌CEO劈柴哥接连派出两名选手上场竞争。第一位Imagen Video与Meta的Make-A-Video相比突出一个高清&#xff0c;能生成1280*768分辨率、每秒24帧的视频片段…

程序员面试金典 - 面试题 16.07. 最大数值(位运算求max)

1. 题目 编写一个方法&#xff0c;找出两个数字a和b中最大的那一个。不得使用if-else或其他比较运算符。 示例&#xff1a; 输入&#xff1a; a 1, b 2 输出&#xff1a; 22. 解题 有符号整型数的二进制最高位存储的是符号位将符号位获取&#xff0c;1为负数&#xff0c;0…

python生成json_Python 生成json文件

原博文 2018-04-12 17:00 − 1.数据准备 数据下载 2.python代码 import datetime import os import mssqlhelper ms mssqlhelper.MSSQL(host"192.168.0.108", user"sa", pwd...218659 相关推荐 2019-05-09 21:36 − JSON(JavaScript Object Notation, JS …

一个数独问题的算法(已更新,提供一个简单算法,欢迎拍砖)

前段时间出差在外闲得无事看到一个数独问题。有三题&#xff0c;脑子不好使&#xff0c;只做出前两题。想想不如用程序来实现。我先把题放出来大家有兴趣研究一下。8 5 7 1 1 9 2 6 2 5 6 9 2 4 5 8 8 1 2 …

大规模CTR框架的变革之夜

文 | 卖萌酱大家好&#xff0c;我是卖萌酱。这几年&#xff0c;有太多的领域吃到了深度学习和大模型的红利&#xff0c;而被大家称之为“现金牛”业务的搜广推&#xff0c;相比CV、NLP等领域却表现的有点“慢半拍”。深度学习已经爆发有10年了。“点击率&#xff08;CTR&#x…

02. Creating a Web Forms User Interface

In this lesson, you will explore the various ASP.NET 2.0 server controls available in Visual Web Developer Express Edition. In addition, you will begin to get familiar with the windows in Visual Web Developer.发现好多东西都是我以前不知道的&#xff0c;收获挺…

程序员面试金典 - 面试题 05.03. 翻转数位(位运算)

1. 题目 给定一个32位整数 num&#xff0c;你可以将一个数位从0变为1。请编写一个程序&#xff0c;找出你能够获得的最长的一串1的长度。 示例 1&#xff1a; 输入: num 1775(11011101111) 输出: 8示例 2&#xff1a; 输入: num 7(0111) 输出: 4来源&#xff1a;力扣&#…

曝阿里达摩院大模型 M6 带头人杨红霞已离职:个人选择,非行业原因

作者 | 李梅来源 | AI科技评论阿里 M6 大模型带头人杨红霞&#xff0c;已从阿里巴巴达摩院智能计算实验室离职。AI科技评论获悉&#xff0c;阿里 M6 大模型的原带头人杨红霞&#xff0c;已于 9 月初因个人家庭原因从阿里巴巴达摩院智能计算实验室离职。杨红霞常年深耕在产业化大…

c#服务器后台搭建_【环境搭建】Docker简明安装教程

背景在前面的文章中介绍了docker&#xff0c;这里讲讲它的安装CZMan95&#xff1a;【环境搭建】Docker篇​zhuanlan.zhihu.com在服务器上安装docker的话还是有些操作&#xff0c;所以这里写个简明教程主要针对Linux服务器&#xff08;Ubuntu&#xff09;&#xff0c;Windows和M…