MIT指出公开预训练模型不能乱用

e78ca1b69006ffe32e9da078aae3ffc3.png

文 | 林锐

众所周知,用 Imagenet 预训练模型做 backbone,再接个下游任务的头去微调,是个简单有效的迁移学习方法。基本上,炼丹师用这种方法就能成功获得一个优秀的模型(水一个实验室的项目)。

0e0f41845d9a58f80979ef2759d2f2df.png

但是近些年一些论文也论证了基于大模型的迁徙学习能导致模型失效。例如 nasty teacher 在预训练模型里面加点玄学,让别人没法蒸馏你的模型, badnets 往源数据集里面下毒(backdoor)能导致子模型崩溃,这些方法都是往大模型里加有毒的 Bias。

MIT 的研究员通过多种数据集来探索这种 Bias 的迁移模式,并对 Imagenet 带来的 Bias 迁移做了进一步讨论。

论文题目:
When does Bias Transfer in Transfer Learning?

论文链接:
https://arxiv.org/abs/2207.02842

Github:
https://github.com/MadryLab/bias-transfer

ebff3c41268b4fbf52d81a8f1eaa350f.png背景5a60c21e36b51ad74029a76fc2b53e57.png

首先简要介绍迁移学习的训练模式

2c59cc46492d44eaf3ab71b4031cdc9d.png
▲图一:迁移学习的基本模式

迁移学习有很多种,这里简要介绍一些基于预训练的迁移学习步骤。

1.先用一个初始化的模型在一个很大的数据集上做训练,同时要注意,这个数据集的特征分布要包括子任务数据集的特征分布,训练好以后固定住预训练模型

2.把预训练模型的分类头去掉,接上自己的分类头,接着用自己的数据集去训练这个新模型,直到收敛。这样我们就获得了一个鲁棒的模型(又干完一个项目)。

但是这就万事大吉了吗? 小编考考大家,如果把预训练模型比作 teacher,teacher sucks 打一成语。

283b3089b53190c4703d85feb7a08fd6.png

答案是误人子弟

本文的作者就指出源数据集中存在的 Bias 同样会被迁移给 target 模型。并且这种 Bias 在正常情况下可能无法发现,但是在某些触发条件下,模型可能会直接崩溃。

12f6cbccee84e765ffe817fbd64286bb.gif

下面小编就来介绍这篇22年7月发表在 arxiv 上的论文。

d6358d606df016def23f553837a9bc3a.png论证思路c0c6aa2c97794e25baaa1ba5f3b2f63a.png

作者分析了三种Bias的情况,分别是是人为引入的,人为选择的以及自然存在的。

人为引入 bias 的方法源于几年前的 Badnets,Badnests 从有 N 类的源数据集中选一个子集,在这个子集的图里面都加上一个标志,例如黄色小方块,相应的标注也改为黄色小方块作为一个新的类,如图二所示。最后子数据集和源数据集合并进行训练。

83b2cfbdb89e2101c49f6f570b9c0f92.png
▲图二:badnets 子集中的图例

对于这个模型而言,一般的分类任务都能做,但是如果某种图里出现了这个标志物,例如在一块牌子上贴了个黄色小方块,模型就会无法识别这张图片。

人为选择是指由作者自己去有偏好地选择某些数据作为训练集,引入某个特征与某个特征的隐式相关性,例如选择狗的图片时只选狗边上站人的图。这种相关性在测试集中却并不存在,通过这种方式引入 Bias。

自然存在的 Bias 指的是源数据集中数据分布的一种特性,例如源数据集中有一类图片是铁丝网,基于此种预训练模型在自己的数据集上做微调,在测试时如果图片里面有铁丝网,模型的输出分布就会失真。本文介绍了 Imagenet 中铁丝网类对下游任务的影响。

a01f2a90173a6abebf252add505d3a41.png实验9793adb9b7b0dd61f8062c93bc8fbfbc.png

1.人为引入的Bias

作者用Attack Success Rate(ASR)来作为Bias引入是否成功的指标,公式如下:

其中T指的是加入黄色小方块的这种 Transformation,ASR 表示同一个分类器,没加 Transformation 能分出来情况下,加了 Transformation 后分不出来的条件概率

作者用 Badnets 的方法在 Imagenet 的数据集中选中了狗狗类的一些图片作为子集,通过在每个图片上加一个黄色小方块的方式引入 Bias,并把这个子集的标签也改为黄色小方块作为一个新的类,用 新的 Imagenet数据集进行预训练。

基于这个预训练模型,训练阶段,作者在不同的子数据集上做微调,验证阶段,不论子数据集是什么,训练出来的子模型对于带有黄色方块的图片都无法识别,表现为 ASR 的值很高。这证明 Bias 确实发生了转移。实验结果如图三所示。

aa4e5392af17e1987aaf41081dbc8636.png
▲图三:子模型的 ASR

那么加黄色小方块图片数量的多少是否对 ASR 有影响呢,作者也做了如下实验,发现这种 Bias 的转移不依赖于源数据集中引入 Bias 的多少,并且两者之间似乎并不存在某种关系。只要源数据集中有 Bias 的出现,在子数据集上微调之后就一定会存在这种 Bias 的迁移。实验结果如图四所示。

8efb21e41148db2d80c2177c35bac34a.png
▲图四:Bias 迁移的强度关系

那么有没有什么方法能消除这种 Bias 呢,那当然也有,就是不能再进行局部微调了,而是要进行全微调,也就是说常规的固定住参数只微调最后一个分类头的方法在这种情况下不可行,应该要让所有参数都可调,这样可以把源数据集中的 Bias 迁移降到最小。实验结果如图五所示。

b279d39a4eff833abfdb42eb3ef8f810.png
▲图五:部分微调与全微调的区别

2.人为选择的 Bias

上面我们说的是人为引入 Bias 的情况,那么没有编辑过的数据集训练的预训练模型,用起来是不是就没有顾忌了呢?c22b3ce2feb1cfc5e7da11fa6d82e951.png

作者指出,源数据集中特征之间的隐式相关性,也将被作为 Bias 进行转移,而且这种转移更加难以消除

cb0aa51477d80c90657c313aff10d475.gif

作者在 COCO 数据集中收集能用于猫狗分类任务的数据,对于狗,作者只选择 COCO 数据集中狗和人同时出现的图片,对于猫则无差别地选择。基于这个Biased数据集训练出来的预训练模型,在一个完全没有人出现的猫狗数据集上进行部分微调(Fixed-Transfer)和全微调(Full-network Transfer)。

验证阶段同样能发现,基于 Biased 预训练模型的子模型在接受一张猫狗的图片时,图中有人的判断准确率比没人的要高很多。并且不同于人为引入Bias的情况,全微调也并不能消除这种 Bias

cdb5323c0b1f26f6027a2ad62a72c102.png
▲图六:自然存在 Bias 的影响

3.自然存在的 Bias

Imagenet 数据集中有一类图片是网球,如图七所示。58a7812280b79d36cd2f6a88b93e2eb2.png

那么经过 Imagenet 预训练模型微调后得到的模型,在验证阶段如果验证集的图片中出现了网球形状的特征,这个模型在做预测的时候将会出现严重的输出失真。

例如 Cifar10 数据集,把验证集的图片加上一个小网球。从头开始训练的模型的输出基本符合均匀分布,但我们可以看到无论是部分微调还是全微调模型输出的结果,都会更倾向于某些特定的类,说明源数据集中蕴含的特征对子任务产生了类似于 Bias 的影响。至于为什么会倾向于某些特定的类本文并没有做更多阐述。实验结果如图八所示。

227d0b4bec1ae547c1be1d64fa99940c.png
▲图八:Cifar10数据集实验

f0d3a407cb4333d19f6bb77f897c401d.png总结b9a6680daca7719e529542560232352d.png

作者论证了上述3种 Bias 在预训练中都是会发生迁移的,那么对于采用预训练模型做微调的情况,这篇文章能启发炼丹师去考量源数据集和目标数据集特征之间的关系。

并且说明了预训练的做法并不总是可靠的,对于特定的任务,Onestage 的训练方式可能会获得比预训练更鲁棒的模型,因为 Onestage 能避免 Bias 的引入。

从这篇文章也能或多或少得感觉到,预训练会引入 Bias 等于用精度换更短的训练时间,From Scratch 理论上可以获得更高的精度,其中的取舍还是要看炼丹师如何选择啦。

1003e42bc0c8b4a1f80ce3ebf128eb11.jpeg

ece980469a80ef7204e98245bebeae2d.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜广推与求职讨论群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477110.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从0到1:构建强大且易用的规则引擎

引言 2016年07月恰逢美团点评的业务进入“下半场”,需要我们在各个环节优化体验、提升效率、降低成本。技术团队需要怎么做来适应这个变化?这个问题直接影响着之后的工作思路。 美团外卖的CRM业务步入成熟期,规则类需求几乎撑起了这个业务所有…

LintCode 563. 背包问题 V(DP)

1. 题目 给出 n 个物品, 以及一个数组, nums[i] 代表第i个物品的大小, 保证大小均为正数, 正整数 target 表示背包的大小, 找到能填满背包的方案数。 每一个物品只能使用一次 样例 给出候选物品集合 [1,2,3,3,7] 以及 target 7 结果的集合为: [7] [1,3,3] 返回 22. 解题 dp[…

汽车博主因眼睛小被辅助驾驶误判为开车睡觉!何小鹏亲自回应 蔚来已成立专门研究小组...

源 | 每日经济新闻近日,一位汽车博主表示,他在驾驶小鹏汽车,使用小鹏辅助驾驶功能的时候,因为自己的眼睛比较小,所以被系统判定为“开车睡觉”,从而被扣除了智驾分。据了解,“智驾分”是小鹏汽车…

投资127亿!深圳,再添一所985

源 | 青塔综合转自 | 募格学术据深圳卫视近日消息,中山大学深圳校区多栋建筑将在暑假交付。报道称,中山大学深圳校区主楼正在进行工程最后收尾工作,预计本月底就能竣工验收,确保秋季新学期开始前投入使用。校区总建筑面积约127万平…

Android OOM案例分析

在Android(Java)开发中,基本都会遇到java.lang.OutOfMemoryError(本文简称OOM),这种错误解决起来相对于一般的Exception或者Error都要难一些,主要是由于错误产生的root cause不是很显而易见。由…

NAACL最佳方法论文:课本上的A*搜索算法可以提升文本生成效果!

文 | Yimin_饭煲相信大多数学习过人工智能课程的读者,当听到算法的时候,都会有一种既熟悉又陌生的感觉。说算法熟悉,是因为一听到这个算法,就想起那本厚厚的《人工智能——一种现代的方法》,想起这个算法似乎是人工智能…

LeetCode 6. Z 字形变换(找规律)

1. 题目 将一个给定字符串根据给定的行数,以从上往下、从左到右进行 Z 字形排列。 比如输入字符串为 “LEETCODEISHIRING” 行数为 3 时,排列如下: L C I R E T O E S I I G E D H N之后,你的输出需要从左往右逐行…

美团点评移动网络优化实践

本文根据第16期美团点评技术沙龙“移动开发实践(上海站)”演讲内容整理而成。 第18期沙龙:高可用系统背后的基础架构(3月25日)火热来袭!快快点击报名吧。 网络优化对于App产品的用户体验至关重要&#xff0…

我终于逃离了互联网,却陷入了迷茫

大家好,我是卖萌酱。昨天跟一位成功逃离互联网的好姐妹小A约了个饭,这位姐妹的早期经历可以说是略带传奇色彩了,过程却比较崎岖,结局心情复杂,但却对普通人来说却很有启发意义。经过小A允许,卖萌酱将小A的故…

LintCode 633. 寻找重复的数(这个题要复习)

1. 题目 给出一个数组 nums 包含 n 1 个整数,每个整数是从 1 到 n (包括边界),保证至少存在一个重复的整数。假设只有一个重复的整数,找出这个重复的数。 样例 1: 输入: [5,5,4,3,2,1] 输出: 5样例 2: 输入: [5,4,4,3,2,1] 输出: 4注意事项…

业务赋能利器之外卖特征档案

应用背景及现状 美团外卖业务自2013年9月启动至今已运营三年时间。截至2016年12月,美团点评整个外卖平台的日订单超过900万。从发展速度和体量上看,外卖业务仍处在迅猛发展的上升期。与早期飞速增长的状态相比,随着规模的不断扩大&#xff0c…

训练双塔检索模型,可以不用query-doc样本了?明星机构联合发文

文 | QvQ对于开放域检索式QA系统而言,其本质是计算question和doc的本文相似度,而作为老生常谈的文本相似度问题,有监督方法的性能历来是要好于无监督算法的。今天要介绍的文章,反其道而行之,不仅采用了无监督算法&…

MGW——美团点评高性能四层负载均衡

本文整理自美团点评技术沙龙第14期:美团背后的故事-你不知道的美团云。 美团点评技术沙龙由美团点评技术团队主办,每月一期。每期沙龙邀请美团点评及其他互联网公司的技术专家分享来自一线的实践经验,覆盖各主要技术领域。 目前沙…

剑指Offer - 面试题36. 二叉搜索树与双向链表(中序循环/递归)

1. 题目 输入一棵二叉搜索树,将该二叉搜索树转换成一个排序的循环双向链表。要求不能创建任何新的节点,只能调整树中节点指针的指向。 特别地,我们希望可以就地完成转换操作。当转化完成以后,树中节点的左指针需要指向前驱&#…

知乎高赞:拼多多和国家电网,选哪个?

源 | 知乎、AINLP最近在知乎上看到一个关于职业选择的问题,虽然都是老生常谈的话题了,但是几个知友的回答获得非常多的赞同,拿来和大家分享一下。知乎上有人问本人是某top3本硕,EE专业,秋招拿到了老家不差的地级市国网…

大众点评订单系统分库分表实践

原大众点评的订单单表早就已经突破两百G,由于查询维度较多,即使加了两个从库,优化索引,仍然存在很多查询不理想的情况。去年大量抢购活动的开展,使数据库达到瓶颈,应用只能通过限速、异步队列等对其进行保护…

NLP未来,路在何方?从学术前沿和业界热点谈起

近两年,人工智能的应用越来越“卷”了,每隔一段时间就会出现一个让人大呼“respect”的技术。AI好像也更加懂人类,越来越接近“人的智能”。就好比今年高考期间被各大科技媒体反复拿来讲的AI高考的案例。如今的“AI做题家”不光能参加高考&am…

剑指Offer - 面试题46. 把数字翻译成字符串(DP)

1. 题目 给定一个数字,我们按照如下规则把它翻译为字符串: 0 翻译成 “a” , 1 翻译成 “b”,……, 11 翻译成 “l”,……, 25 翻译成 “z”。 一个数字可能有多个翻译。请编程实现一个函数&a…

美团数据库运维自动化系统构建之路

本文整理自美团点评技术沙龙第10期:数据库技术架构与实践。 美团点评技术沙龙由美团点评技术团队主办,每月一期。每期沙龙邀请美团点评及其它互联网公司的技术专家分享来自一线的实践经验,覆盖各主要技术领域。 目前沙龙会分别在北京、上海和…

推荐一个开源的炼丹神器MegPeak!算法工程师的仪表盘

在算力需求爆炸的大背景下,如何发挥出已有硬件的最大算力变得非常重要,直观一点是:我们需要对现有算法针对特定的处理器进行极致的性能优化,尽量满足目前AI算法对算力的高要求。为了能够做到极致的性能优化,我们可能的…