论文浅尝 - ICML2020 | 拆解元学习:理解 Few-Shots 任务中的特征表示

论文笔记整理:申时荣,东南大学博士生。



来源:ICML2020

链接:http://arxiv.org/abs/2002.06753

元学习算法会生成特征提取器,这些特征提取器在进行few-shot分类时就可以达到最新的性能。尽管文献中有大量的元学习方法,但对于为什么生成的特征提取器表现如此出色的原因知之甚少。本文对元学习的基本机制以及使用元学习训练的模型与经典训练的模型之间的差异有了更好的了解。在此过程中,本文针对元学习模型为何表现更好而提出了一些假设。除了可视化之外,本文还根据假设设计了一些正则化器,这些正则化器可改善几次快照分类的性能。

1.元学习

       元学习算法的目的是产生一个网络,该网络可以使用很少的数据快速适应新的类别。具体来说,元学习算法会找到可以在几个优化步骤和几个数据点上进行微调的参数,以实现对任务Ti的良好概括,该任务Ti由来自分布和标签空间的少量数据样本组成在训练期间没有被看见。如果在看到Ti中n个类别中的每个类别的k个示例后,元学习算法必须适应对Ti中的数据进行分类,则该任务的特征为n-way,k-shot。

       元学习方案通常依赖于带有内部循环和外部循环的双层优化问题。

外循环的迭代涉及首先对“任务”进行采样,该“任务”包括两组标记数据:支持数据Tsi和查询数据Tqi。然后,在内部循环中,使用支持数据对要训练的模型进行微调。最后,例程返回到外循环,在该外循环中,元学习算法将查询数据相对于预微调的权重的损失降至最低。通过微分内环计算并更新网络参数以使内环微调尽可能有效,来执行此最小化。

2.元学习有效性的解释和可视化

实验发现,在所有情况下,元学习特征提取器均优于相同体系结构的经典训练模型。全面的性能优势表明,元学习的功能在质量上与传统功能有所不同,并且从根本上来说优于一次性学习。

2.1在特征空间中测量聚类

       首先,测量不同的训练方法对特征表示的聚类程度:

       直观上来看,使用元学习后,内部的聚类性能会更好,更有利于少样本去构建分类边界。

2.2比较元学习和经典训练模型的特征表示


通过LDA对特征空间进行可视化:

可以看到,元学习和原型学习的方法,在语义空间中的分布更加合理。特征空间的聚类可以提高迁移的成功率。

2.3为参数空间中的任务损失寻找局部极小值簇

我们在特征空间图中看到,由MAML特征生成的前两个LDA组件在外观上看起来是分开的类。现在,我们通过为预先训练的MAML模型以及相同体系结构的经典训练模型计算我们的正则化值,来量化MAML与转移学习相比的班级分离程度。我们发现,实际上,MAML表现出比相同体系结构的经典训练模型更差的特征分离。

3总结

在这项工作中,阐明了元学习网络与经过经典训练的对等网络之间的两个关键区别。我们发现有证据表明,相对于类之间的差异,元学习算法将类中特征向量之间的差异最小化。将类内特征的变化减至最少对few-shot性能至关重要。

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478824.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android官方开发文档Training系列课程中文版:电池续航时间优化之检查、检测网络连接状态

原文地址:http://android.xsoftlab.net/training/monitoring-device-state/connectivity-monitoring.html 通常会有一些后台服务需要连接到网络来更新数据。但是如果没有连接到互联网,或者由于网络太慢而不能完成更新,那么为什么不在连接到网…

LeetCode 304. 二维区域和检索 - 矩阵不可变(DP)

1. 题目 2. 解题 类似题目:LeetCode 308. 二维区域和检索 - 可变(前缀和) dp[i][j]数组表示 从左上角到i,j位置的所有和 sum[i1][j1]sum[i1][j]sum[i][j1]matrix[i][j]−sum[i][j]sum[i1][j1] sum[i1][j]sum[i][j1]matrix[i][j]-sum[i][j]…

一键离线下载python安装包:

Python 第三方库 批量下载安装包,离线批量安装Python第三方库:https://www.cnblogs.com/qiuyubai/p/14084501.html 核心代码: 一键生成安装包的索引文件requirements.txt pip freeze >requirements.txt pip download -d ./ -r requirements.txt全部…

论文浅尝 - ICML2020 | 对比图神经网络解释器

论文笔记整理:方尹,浙江大学在读博士,研究方向:图表示学习。Contrastive Graph Neural Network Explanation动机与贡献本文主要关注图神经网络的解释性问题,这样的解释有助于提升GNN的可信度,能够更好的理解…

这可能是最简单又有效的自监督学习方法了

文 | 王珣知乎本文已获作者授权,禁止二次转载从Kaiming的MoCo和Hinton组Chen Ting的SimCLR开始,自监督学习(SSL)成了计算机视觉的热潮显学。凡是大佬大组(Kaiming, VGG,MMLAB等),近两…

大众点评账号业务高可用进阶之路

引言 在任何一家互联网公司,不管其主营业务是什么,都会有一套自己的账号体系。账号既是公司所有业务发展留下的最宝贵资产,它可以用来衡量业务指标,例如日活、月活、留存等,同时也给不同业务线提供了大量潜在用户&…

Android官方开发文档Training系列课程中文版:电池续航时间优化之按需开启广播接收器

原文地址:http://android.xsoftlab.net/training/monitoring-device-state/manifest-receivers.html 监测设备状态变化最简单的实现方式就是为每种状态都创建一个广播接收器,然后只需在相应的广播接收器内依据当前的设备状态重新执行各自的任务即可。 …

LeetCode 493. 翻转对(归并排序)

1. 题目 给定一个数组 nums &#xff0c;如果 i < j 且 nums[i] > 2*nums[j] 我们就将 (i, j) 称作一个重要翻转对。 你需要返回给定数组中的重要翻转对的数量。 输入: [1,3,2,3,1] 输出: 2输入: [2,4,3,5,1] 输出: 3来源&#xff1a;力扣&#xff08;LeetCode&#x…

执行Dockerfile构建基础镜像,建立python工作环境

Docker Dockerfile&#xff1a;https://www.runoob.com/docker/docker-dockerfile.html 核心内容&#xff1a; 指令详解 COPY 复制指令&#xff0c;从上下文目录中复制文件或者目录到容器里指定路径。 格式&#xff1a; COPY [--chown<user>:<group>] <源路径…

论文浅尝 - ICML2020 | 通过关系图上的贝叶斯元学习进行少样本关系提取

论文笔记整理&#xff1a;申时荣&#xff0c;东南大学博士生。来源&#xff1a;ICML 2020链接&#xff1a;http://arxiv.org/abs/2007.02387一、介绍本文研究了少样本关系提取&#xff0c;旨在通过训练每个关系少量带有标记示例的句子来预测句子中一对实体的关系。为了更有效地…

美团外卖客户端高可用建设体系

背景 美团外卖从2013年11月开始起步&#xff0c;经过数年的高速发展&#xff0c;一直在不断地刷新着记录。2018年5月19日&#xff0c;日订单量峰值突破2000万单&#xff0c;已经成为全球规模最大的外卖平台。业务的快速发展对系统稳定性提出了更高的要求&#xff0c;如何为线上…

Android官方开发文档Training系列课程中文版:线程执行操作之定义线程执行代码

原文地址&#xff1a;http://android.xsoftlab.net/training/multiple-threads/index.html 引言 大量的数据处理往往需要花费很长的时间&#xff0c;但如果将这些工作切分并行处理&#xff0c;那么它的速度与效率就会提升很多。在拥有多线程处理器的设备中&#xff0c;系统可…

我哭了,工业界AI项目落地有多难?

文 | 皮特潘源 | CVer人工智能是近几年最火热的技术名词&#xff0c;如果不谈人工智能相当于落伍&#xff0c;但当真正进入人工智能领域时才发现&#xff0c;一开始以为“拦路虎”是算法&#xff0c;后面发现落地是一个巨大的难题。本文从作者的经历和经验教训展开&#xff0c;…

LeetCode 646. 最长数对链(区间 贪心)

1. 题目 给出 n 个数对。 在每一个数对中&#xff0c;第一个数字总是比第二个数字小。 现在&#xff0c;我们定义一种跟随关系&#xff0c;当且仅当 b < c 时&#xff0c;数对(c, d) 才可以跟在 (a, b) 后面。我们用这种形式来构造一个数对链。 给定一个对数集合&#xf…

以太网和路由设置,内网和外网同时上

第一步&#xff0c;查看自己内网的地址&#xff0c;网络与internet设置&#xff0c;更改适配器选项&#xff0c;出现下面的页面 点击内网&#xff0c;右击WLan&#xff0c;点击状态 点击详细信息&#xff1a; 记录网关信息&#xff1a; 第二步&#xff1a;查找路由器设置 …

论文浅尝 - AAAI2020 | 通过知识库问答改善知识感知对话生成

论文笔记整理&#xff1a;胡楠&#xff0c;东南大学博士。来源&#xff1a;AAAI 2020动机现在的将外部知识整合到对话系统中的研究仍然存在一定缺陷。首先&#xff0c;先前的方法难以处理某些语句的主语和关系&#xff0c;比如当语句中的相关实体彼此相距较远时。其次&#xff…

互联网企业数据安全体系建设

一、背景 Facebook数据泄露事件一度成为互联网行业的焦点&#xff0c;几百亿美元市值瞬间蒸发&#xff0c;这个代价足以在地球上养活一支绝对庞大的安全团队&#xff0c;甚至可以直接收购几家规模比较大的安全公司了。 虽然媒体上发表了很多谴责的言论&#xff0c;但实事求是地…

Android官方开发文档Training系列课程中文版:线程执行操作之创建多线程管理器

原文地址&#xff1a;http://android.xsoftlab.net/training/multiple-threads/create-threadpool.html 上节课我们学习了如何定义一个任务。如果只是执行单次任务&#xff0c;那么刚刚所学的已经基本满足要求了。如果需要针对不同的数据执行同种任务&#xff0c;并且需要同一…

NLP研究者必备的语言学书籍!

文 | Serena Gao知乎首先&#xff0c;做nlp不一定要很懂语言学&#xff0c;也不一定要跟语言学扯上关系。nlp可以仅是data mining&#xff0c;features engineering, 也的确有很多work目前在用文本或者对话做为数据集&#xff0c;然后用统计学方法实现目的&#xff0c;比如deep…

LeetCode 334. 递增的三元子序列

1. 题目 给定一个未排序的数组&#xff0c;判断这个数组中是否存在长度为 3 的递增子序列。 数学表达式如下: 如果存在这样的 i, j, k, 且满足 0 ≤ i < j < k ≤ n-1&#xff0c; 使得 arr[i] < arr[j] < arr[k] &#xff0c;返回 true ; 否则返回 false 。 说…