恕我直言,你的模型可能并没看懂 prompt 在说啥

本文转载自公众号夕小瑶的卖萌屋,专业带逛互联网算法圈的神操作

-----》我是传送门

关注后,回复以下口令:

回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读)

回复【入群】:加入卖萌屋深度学习/NLP/CV/搜广推等方向的技术交流与内推社群(大V、顶会审稿人云集)

回复【0511】:领取算法岗面试手册(刷offer神器)

回复【0424】:领取刷论文神器(挖掘每日、每月必刷重磅论文)

前言

随着GPT-3等超大模型的兴起,in-context learning 的形式也流行起来。在in-context learning中,模型不根据下游任务调整参数,而是将下游任务的输入输出接起来之后作为prompt,引导模型根据测试集的输入生成预测结果。该方法的表现可以大幅超越零监督学习,并给大模型高效运用提供了新的思路。

然而,in-context learning中,模型真的学习了下游任务么?作为prompt的训练样本,到底是如何让模型work的?

本文作者发现,in-context learning学习的并不是输入与标注之间的关联,而是通过展示数据形式,来激活预训练模型的能力。此外还有两个附带的结论:(1)在meta learning的环境下,in-context learning的这一特点更为明显;(2)因为标签不重要,所以可以用无标注领域内数据做in-context zero shot learning。

论文题目:
Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?

论文链接:
https://arxiv.org/abs/2202.12837

项目地址:
https://github.com/Alrope123/rethinking-demonstrations

背景

大规模预训练模型的无监督预测:对预训练好的语言模型,输入测试数据的输入(x),直接通过语言模型预测输出(P(y|x))。如下图所示。其中minimal是最简单的方式,mannual是加入人工设计的部分。蓝色是需要预测的标签部分。这篇论文中,作者默认采用Minimal的方式处理测试数据。

1268c879239faf1d7770d9be3933d6ee.png

in-context learning,类似于上述的无监督预测,但在输入测试样例前输入少量标注数据。同样不需要参数调整,直接训练。相当于在无监督预测的基础上,引入如下前缀:

0a80b772ecd6b6b22e86a5522bcd6a9c.png

而本文主要探究的,就是in-context learning中,模型究竟从加入的这段前缀中学到了什么。

实验设置

本文主要探究了6种不同的预训练模型,其中,MetaICL采用了大量的下游任务以in-context learning的形式进行了元学习:

3bcd2d1fdfb134d8768ad48b75e9d959.png

对于每个模型,作者采用了两种应用方式,即direct和channel:

3de9de8e7ea73a02246ca4e06066f71d.png

作者一共探究了26个数据集,其中16个分类任务和10个多项选择任务。

7304195d51e4c11f2606441a5644c9a3.png

在实验细节上,作者对于每个instance,展示了16个标注样例。每组设置(26个数据集6个预训练模型2组使用方式)用5个随机数种子跑了5遍。作者在 airseq 13B 和 GPT-3 两个大模型上,出于算力的考虑只做了6个数据集,和3个随机数种子。

由于实验较多,作者一般仅汇报各种均值。

模型没有学习标签

这篇文章的第一个结论是:in-context learning中,模型并没有学习输入和标签之间的对应关系。

通过给in-context的训练样本赋予随机标签,可以构建随机标注的设置。从下图中可以看出,无论是分类任务(上),还是多项选择任务(下),随机标注设置下(红)模型表现均和正确标注(黄)表现相当,且明显超过没有in-context样本的zero-shot 设置(蓝)。

a72089787966918c297cbf01e4db94e1.png

这一点趋势,在改变随机标签的in-context样本比例,以及改变in-context样本数量时,都是保持的。选用人工设计的in-context展示形式(prompt),结论也不发生改变。

下图调整的是改变随机标签的in-context样本比例。

a8c06900d05178331fa4bdd922131330.png

下图左边是Channel MetaICL,右边是 Direct GPT-J,K调的是展示样例的数目。

3dc85582ec52320aa524e4028a31441b.png

下图+T表示采用人工设计的in-context展示形式。

1ddc8891d15487a948fc2735efc239bb.png

模型学习任务形式

这篇文章的第二个结论是:in-context learning中,模型学到(激活)了输入数据、预测标签的分布,以及这种数据+label的语言表达形式。

下图中,青绿色的柱子为用(从外部语料中)随机采样的句子替换输入句子的设置。可以看到,模型表现明显下降。因此,in-context learning中,展示样本和测试样本在语料分布上的一致性比较中央。猜测模型很可能学到了展示样本的语言风格。

56556e069297f15108471da07992294b.png

下图中,青绿色的柱子为用随机词汇替代展示样本中的标签。可以看到,模型表现明显下降。因此,in-context learning中,展示样本中的标签内容与测试样本的标签内容的一致性是比较重要的。猜测模型很可能从展示样本中学到了标签词汇的分布。

d004e1da8e0886888c1e9b5922daeb22.png

下图中,分别用labels only(深紫)和no labels(深绿)来探索展示模式的差异对模型表现的影响。可以看到,模型相对于上面两图的OOD setting而言,都有了进一步的下降。这可以表明,除了领域内,输入和标签表达方式之外,in-context learning中模型还会学习这种输入输出的语言模式。

5d51446bf2475a5f64470c053b0291b1.png

总结与讨论

模型有没有学习?

作者认为,传统意义上的学习指模型建模输入样本和输出样本之间的关联(P(y|x)或P(x,y)∝P(x|y))。在这种意义下,in-context learning并没有学习。

然而,模型可以通过展示样例,中的输入、输出、及输入+输出的语言表达风格来提升表现。在一定程度上,这种利用前缀输入激活大模型语言表达建模能力的方式也算是一种学习。

因此,这也表明:

大模型零监督能力远超预期

毕竟,学习表达形式、语言风格与标签形式,不需要标注数据的参与。大模型潜在地就具有了这种(分类)能力。

当然,反过来,也表明了in-context learning的局限在于,它不能真正建模输入和输出之间的关系,因此在一些输入输出之间的关系必然没有被无监督预训练任务所建模的下游任务而言,in-context learning很可能失效。

不过,看起来目前大多数传统NLP的任务都不会满足上述“失效”设定。

额外的一点启示

这篇文章的一作 Sewon Min 近期创作了很多相关主题的高质量工作,包括:

  • Noisy Channel Language Model Prompting for Few-Shot Text Classification ~ https://arxiv.org/pdf/2108.04106.pdf

  • MetaICL: Learning to Learn In Context ~ https://arxiv.org/pdf/2110.15943.pdf

平时有些同学做了很多实验,一到写论文就什么实验结果都想往论文里放。这里还是可以学习一下 Sewon Min。这三篇文章arxiv的时间跨度只有6个月,很多实验甚至是有overlap的,基本可以判断为一作同时在做的几项工作。作者从不同的角度去分割了这些实验,以不同的汇报方式,讲出了三个故事,每个故事看起来都完整且独立,看起来就很棒。 

本文转载自公众号夕小瑶的卖萌屋,专业带逛互联网算法圈的神操作

-----》我是传送门

关注后,回复以下口令:

回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读)

回复【入群】:加入卖萌屋深度学习/NLP/CV/搜广推等方向的技术交流与内推社群(大V、顶会审稿人云集)

回复【0511】:领取算法岗面试手册(刷offer神器)

回复【0424】:领取刷论文神器(挖掘每日、每月必刷重磅论文)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477465.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开源开放 | 区域供冷供热系统及空调系统知识图谱

OpenKG地址:http://openkg.cn/dataset/less开放许可协议:CC BY-SA 4.0 (署名相似共享)贡献者:浙江大学(赵阳,李婷婷,章超波)1、背景区域供冷供热系统及空调系统领域涉及知…

LeetCode 1334. 阈值距离内邻居最少的城市(最短路径Dijkstra)

1. 题目 有 n 个城市,按从 0 到 n-1 编号。给你一个边数组 edges,其中 edges[i] [fromi, toi, weighti] 代表 fromi 和 toi 两个城市之间的双向加权边,距离阈值是一个整数 distanceThreshold。 返回能通过某些路径到达其他城市数目最少、且…

五个同事想计算他们的平均工资,但公司不让吐露薪资,如何实现?

源 | Xpecya知乎大家好我是卖萌酱。昨天在知乎上刷到一个很有意思的问题:“五个同事决定计算他们的平均工资,在大家互相不告诉薪水的情况下,如何才能做到这一点?”。确实互联网公司是不让员工讨论薪资的,但通过一些神操…

基于Consul的分布式信号量实现

本文将继续讨论基于Consul的分布式锁实现。信号量是我们在实现并发控制时会经常使用的手段,主要用来限制同时并发线程或进程的数量,比如:Zuul默认情况下就使用信号量来限制每个路由的并发数,以实现不同路由间的资源隔离。 信号量(…

图谱实战 | 图视角下的信息抽取技术研究

导读:本次分享题目为《图视角下的信息抽取技术研究》,主要介绍:研究背景和意义国内外研究现状研究目标与内容主要成果与创新之处完成项目及发表论文情况分享嘉宾|郁博文博士 达摩院 算法专家编辑整理|王露出品平台&…

LeetCode 1335. 工作计划的最低难度(DP)

1. 题目 你需要制定一份 d 天的工作计划表。工作之间存在依赖&#xff0c;要想执行第 i 项工作&#xff0c;你必须完成全部 j 项工作&#xff08; 0 < j < i&#xff09;。 你每天 至少 需要完成一项任务。工作计划的总难度是这 d 天每一天的难度之和&#xff0c;而一天…

CCKS-面向数字商务的知识图谱比赛重磅上线,奖金等你来拿!

​CCKS 2022面向数字商务的知识图谱评测赛题介绍阿里巴巴商品数据规模庞大&#xff0c;商品知识图谱为海量异构的商品数据的组织、管理和利用提供了有效的方式。商品数据模态丰富&#xff0c;动态性高&#xff0c;数据存在噪声&#xff0c;这些都对商品的认知和理解带来了巨大挑…

基于Consul的分布式锁实现

我们在构建分布式系统的时候&#xff0c;经常需要控制对共享资源的互斥访问。这个时候我们就涉及到分布式锁&#xff08;也称为全局锁&#xff09;的实现&#xff0c;基于目前的各种工具&#xff0c;我们已经有了大量的实现方式&#xff0c;比如&#xff1a;基于Redis的实现、基…

LeetCode 1289. 下降路径最小和 II(DP)

1. 题目 给你一个整数方阵 arr &#xff0c;定义「非零偏移下降路径」为&#xff1a;从 arr 数组中的每一行选择一个数字&#xff0c;且按顺序选出来的数字中&#xff0c;相邻数字不在原数组的同一列。 请你返回非零偏移下降路径数字和的最小值。 示例 1&#xff1a; 输入&a…

警惕“不续签劳动合同”式裁员

文 | 是小酒呀源 | 知乎正文内容来源于作者 是小酒呀知乎&#xff0c;原文链接&#xff1a;https://zhuanlan.zhihu.com/p/499838511没想到裁员还有不续约这招&#xff1f;&#xff01;&#xff01;3月14日一大早&#xff0c;leader叫我去会议室&#xff0c;进入会议室后&#…

图谱实战 | OPPO自研大规模知识图谱及其在小布助手中的应用

分享嘉宾&#xff1a;李向林 OPPO编辑整理&#xff1a;吴祺尧 加州大学圣地亚哥分校出品平台&#xff1a;DataFunTalk导读&#xff1a;OPPO知识图谱是OPPO数智工程系统小布助手团队主导、多团队协作建设的自研大规模通用知识图谱&#xff0c;目前已达到数亿实体和数十亿三元组的…

LeetCode 1284. 转化为全零矩阵的最少反转次数(BFS 矩阵状态编码解码)

1. 题目 给你一个 m x n 的二进制矩阵 mat。 每一步&#xff0c;你可以选择一个单元格并将它反转&#xff08;反转表示 0 变 1 &#xff0c;1 变 0 &#xff09;。如果存在和它相邻的单元格&#xff0c;那么这些相邻的单元格也会被反转。&#xff08;注&#xff1a;相邻的两个…

Netflix Zuul与Nginx的性能对比

这是一篇翻译&#xff0c;关于大家经常质疑的一个问题&#xff1a;API网关Zuul的性能。原文&#xff1a;NETFLIX ZUUL VS NGINX PERFORMANCE作者&#xff1a;STANISLAV MIKLIK 如今你可以听到很多关于“微服务”的信息。Spring Boot是一个用来构建单个微服务应用的理想选择&…

LeetCode 773. 滑动谜题(BFS 地图状态转换的最短距离)

1. 题目 在一个 2 x 3 的板上&#xff08;board&#xff09;有 5 块砖瓦&#xff0c;用数字 1~5 来表示, 以及一块空缺用 0 来表示. 一次移动定义为选择 0 与一个相邻的数字&#xff08;上下左右&#xff09;进行交换. 最终当板 board 的结果是 [[1,2,3],[4,5,0]] 谜板被解开…

Spring Cloud实战小贴士:随机端口

太久没有更新&#xff0c;一时不知道该从哪儿开始&#xff0c;索性就从一个小技巧开始吧。 在之前的《Spring Cloud构建微服务架构》系列博文中&#xff0c;我们经常会需要启动多个实例的情况来测试注册中心、配置中心等基础设施的高可用&#xff0c;也会用来测试客户端负载均衡…

图谱实战 | 基于金融场景的事理图谱构建与应用

分享嘉宾&#xff1a;肖楠 京东科技 算法专家编辑整理&#xff1a;付村 云融创新出品平台&#xff1a;DataFunTalk导读&#xff1a;今天分享京东科技近期在事理图谱构建和应用方面的研究成果&#xff0c;主要分为以下五个部分&#xff1a;京东科技图谱简介金融事理图谱构建因果…

综述 | 基于深度学习的目标检测算法

计算机视觉是人工智能的关键领域之一&#xff0c;是一门研究如何使机器“看”的科学。图像目标检测又是计算机视觉的关键任务&#xff0c;主要对图像或视频中的物体进行识别和定位&#xff0c;是AI后续应用的基础。因此&#xff0c;检测性能的好坏直接影响到后续目标 追踪、动作…

LeetCode 1337. 方阵中战斗力最弱的 K 行(优先队列)

1. 题目 给你一个大小为 m * n 的方阵 mat&#xff0c;方阵由若干军人和平民组成&#xff0c;分别用 0 和 1 表示。 请你返回方阵中战斗力最弱的 k 行的索引&#xff0c;按从最弱到最强排序。 如果第 i 行的军人数量少于第 j 行&#xff0c;或者两行军人数量相同但 i 小于 j…

Spring Cloud实战小贴士:版本依赖关系

去年在博客上连载了《Spring Cloud构建微服务架构》的系列博文&#xff0c;虽然这部分内容得到了不少关注者们的支持&#xff0c;但是不得不说这些内容只是适用于Spring Cloud入门阶段对各个组件的初步认识。所以&#xff0c;今年除了将会继续更新《Spring Cloud构建微服务架构…

关于神经网络,一个学术界搞错了很多年的问题

文 | 五楼知乎说一个近年来神经网络方面澄清的一个误解。BP算法自八十年代发明以来&#xff0c;一直是神经网络优化的最基本的方法。神经网络普遍都是很难优化的&#xff0c;尤其是当中间隐含层神经元的个数较多或者隐含层层数较多的时候。长期以来&#xff0c;人们普遍认为&am…