我对你的爱,是只为你而留的神经元

文 | 白鹡鸰有一个小轶专属神经元
编 | 小轶有一个白鹡鸰专属神经元

什么是苹果?红的?绿的?黄的?球状?斑点?香气?需要咬上一口才能确定?或者……其实我们在说某家技术公司?

概念很抽象,我们能轻易判断一个物体是不是苹果,但若要向从未见过苹果的人说明,却着实需要大费周章。概念很重要,理解概念意味着能够从现象中提取具有不变性的特征。可以说,机器能否理解概念,是从弱(人工)智(能)走向强(人工)智(能)的关键。利用数据迁移、有偏学习等方式,通过一些数学或计算过程上的技巧,确实可以有效提升模型的精度表现。然而,一个真正理解了概念的模型显然将会吊打现有的一切

当然,这样的模型目前还没有造出来,否则白鹡鸰不会在这里悠哉悠哉地写文章,而是会开始搜索《失业了,去旅行》、《火星移民购票指南》。不过呢,今天的话题确实也与此息息相关。

OpenAI在3月初推出了CLIP (Contrastive Language-Image Pre-training) 模型。模型的本职工作“平平无奇”——利用监督学习预测图像题注;特色“只是”放弃了手动标注,通过图片对应的文本段落获取语义特征,NLP和CV同步运行;效果“普普通通”达到了相关领域的SOTA。显然,造一个nb的模型是满足不了OpenAI的。他们对CLIP进行了详细周密的测试,可视化结果显示:CLIP与神经细胞对概念的响应规律相似度很高。换言之,模型的可解释性也相当好。这么好看而又厉害的模型,必然值得大家一起围观一波。

论文题目:
Learning Transferable Visual Models From Natural Language Supervision

论文链接:
https://arxiv.org/abs/2103.00020

可视化测试结果展示
https://distill.pub/2021/multimodal-neurons/

Github:
https://github.com/openai/CLIP

CLIP中的“神经元”

想要充分理解CLIP可视化结果的意义,首先得从2005年的一项神经细胞学研究说起[1]。简单地说,在人类的大脑中存在一类细胞,能够直接对信息所包含的概念进行响应,而无所谓信息出现的模态形式。举个例子:研究者发现,被试者的特定部分脑细胞能被关于女演员Halle Barry的各类信息激活,包括她的名字、肖像画、照片(甚至是她饰演猫女时,只露了下巴的照片,这就是真爱吧),而对其他人的照片、素描、名字无动于衷。

所以一个好梗虽然不会刻进DNA,但确实可能占掉你几个脑细胞。

OpenAI发现,他们的CLIP模型中也存在类似的神经元,例如在网络倒数第二层中的244号神经元,会对蜘蛛和蜘蛛侠的照片、画作和文本信息进行响应

▲CLIP中的“蜘蛛(侠)神经元”与人类的“Halle Berry神经元”对比

为了证明CLIP确实是对事物的概念普遍进行了响应(而不是由于数据偏差,把某个神经元调教成了蜘蛛真爱粉),OpenAI利用Google开发的特征可视化工具[2]对网络中大量神经元的响应规律进行了调查。该工具可视化了神经网络中倒数第二层的感知单元从输入图片中提取到的特征。

下图分别展示了捕捉 画风/节日/品牌 概念的感知单元所提取到的特征。从效果来看,确实抓住了这些概念的灵魂。网站上还展示了一些对情感、名人的特征提取案例。在涉及人脸的可视化结果中,眼睛的出现频率特别高,可能是因为这一特征的权重很大。为了避免引发大家的恐怖谷效应和密集恐惧症,在这里就不放图了。如果好奇的话可以自己看看demo,其实有点像毕加索。

对其他类型的CLIP神经元,OpenAI也选取了几个例子进行统计学上的分析。例如,

  • 属于Person Neurons的“特朗普神经元”:对于特朗普的照片和画像,神经元的响应自然很强烈,而对于与特朗普关系密切的人物、特朗普的政策口号,神经元也会有较弱的响应。而对于例如LGBT、马丁·路德·金的图像,神经元会产生负面响应(Interesting~(◐‿◑))。

  • 对于Emotion Neurons中的“心理疾病神经元”:负面情感词汇如“压抑”、“焦虑”、“孤独”和心理学相关词汇“疗法”、“失调”等都会触发波动;另一方面,宠物、运动、音乐的图像也会触动这个神经元。这两个例子说明,CLIP中的神经元可以根据概念之间的内在联系给出不同程度的响应

  • 在对地区的学习中,不同被试者Region Neurons的反应大相径庭——有的能对地球半球的概念响应,有的则会详细到一个城市的印象。由于训练时采集的数据以英文为主体,模型获取的有关非洲的信息少之又少,所以即使在体量最大的RN50-x4模型中,神经元也没能形成对整个非洲的概念响应,只是对非洲的三个区域进行了分别的理解。

▲引起"特朗普神经元"响应的图片分布统计
▲RN50-x4中对非洲三块区域的分别响应

值得注意的是,对Region Neurons的调查揭露了另一个有趣的现象,有些概念在网络中的存在并不稳定。一些神经元代表的supercategory会包含多个概念。比如说,"英国"的概念就不是在每一次模型训练完之后都能找到对应神经元的。如果"英国神经元"不存在,某个代表"欧洲"的神经元就会对与"英国"相关的信息进行响应。

这种概念消失的现象与模型的参数随机更新有很大关系。直觉上,这其实和人类个体的认知差异性有一定相似之处——对物种不感兴趣的人只会简简单单地将所有的鸟统称为鸟类,而白鹡鸰必然会强调白鹡鸰是一种独特的鸟类~

短板

在测试中,OpenAI发现模型的一个弱点:CLIP很容易受到图像中插入的文字信息的干扰。例如,下图明明是一台除草机,但如果人为地在图片中加入若干"$"的字符,模型有很大概率将图像和金钱这一概念联系起来,认为图中显示的是一个存钱罐。

▲后期植入文字对图像理解的干扰

甚至不需要对图像进行后期处理,一纸一笔,typographic attacks就能轻松搞定CLIP。比如说,只要给苹果贴上一个iPod的标签,CLIP就会几乎不带犹豫地将它识别成iPod。

▲Typographic attack实例(Granny Smith是苹果品种)

白鹡鸰认为,CLIP在这个测试中展现的失误和人类有一定的相似之处。Typographic attack令人联想到以下这个测试图,无论是快速按顺序说出文字的颜色还是照读文字,人的反应都会产生延迟。可惜目前人类认知这类信息的迟滞原理还没有从神经元响应的层面获得解析,因此无法验证CLIP与人失误的机理是否一致。

原理

CLIP的表现如此优秀,想必大家对它的构成会有一丢丢好奇。但是,从结构上来说,CLIP确实没有特别难以理解的地方,输入是图像和文本,分别通过各自模态的encoder(图像:ResNet-50,文本:Transformer)转换为特征向量。然后对于有关联性的图像和文本特征,最大化两者的余弦相似度,并最小化无关特征对的余弦相似度,用对称交叉熵做损失函数。代码目前也在Github上完全公开,感兴趣的同学完全可以自行查看~

按照作者们的观点,CLIP的核心在于监督学习中采用的文本输入。利用大段的原始文本作为图像的标签,让模型自行理解文本中与图像相关的信息,这样一来,图像与文本中看似无关的信息也将建立关联,遇到训练时罕见的图像,模型能够有更高概率进行识别。这种想法并非CLIP原创,但是基于这个思路想要成功,必须要有大量的数据支撑。因此OpenAI大手一挥,基于互联网开源数据弄了4亿文字-图像对(因为直接采用现成的文字-图像对,标注的成本完全省掉了),这么大数据量算力要求自然很高,又一声令下,搞了592个(可能还不止)GPU。虽然作者们强调,模型当前对不常见数据的鲁棒性高,zero-shot learning功不可没。但说句实话,这样的硬性条件支持,模型就算没用zero-shot,想表现不好也很难啊。

结语

CLIP模型作为视觉信息概念提取的SOTA本身价值已然很高(toolkit喜加一),但是有关CLIP的工作中,对其他研究者和开发者意义最大的部分恐怕还是在于对网络的可视化分析。OpenAI详细的测试就像一份模板,告诉了大家在检验类似领域中模型的可解释性时,可以使用什么工具、需要检验神经元对什么信息的反应、模型需要关注的弱点可能在哪。无论是写论文还是项目做demo,这都有相当的参考价值。如果诸位读者也能从中获得灵感,打磨自己的工作,那将是相当美妙的事情~

!猜猜这段话的出处
当我吃一个苹果时,我并不能一次感知整个苹果的模样与滋味。事实上,我所接到的是一连串的单一感觉,诸如它是绿色的、闻起来很新鲜、尝起来脆又多汁等。一直要等到我吃了许多口之后,我才能说:我正在吃“苹果”……我们自己形成了一个有关“苹果”的“复合概念”。当我们还是婴儿,初次尝到苹果时,我们并没有这种复合概念,只是看到一个绿色的东西,尝起来新鲜多汁,好吃……还有点酸。我们就这样一点一滴地将许多类似的感觉放在一起,形成“苹果”、“梨子”或“橘子”这些概念。

萌屋作者:白鹡鸰

白鹡鸰(jí líng)是一种候鸟,天性决定了会横跨很多领域。已在上海交大栖息四年,进入了名为博士的换毛期。目前以图像语义为食,但私下也对自然语言很感兴趣,喜欢在卖萌屋轻松不失严谨的氛围里浪~~形~~飞~~翔~~

知乎ID也是白鹡鸰,欢迎造访。

作品推荐:

  1. NLP太卷,我去研究蛋白质了~

  2. 谷歌40人发表59页长文:为何真实场景中ML模型表现不好?

  3. 学术&工业界大佬联合打造:ML产品落地流程指南

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

 

[1].R. Q. Quiroga, L. Reddy, G. Kreiman, C. Koch, and I. Fried, “Invariant visual representation by single neurons in the human brain,” Nature, vol. 435, no. 7045, pp. 1102–1107, 2005, doi: 10.1038/nature03687.

[2].C. Olah, A. Mordvintsev, and L. Schubert, “Feature Visualization,” Distill, vol. 2, no. 11, p. e7, Nov. 2017, doi: 10.23915/distill.00007.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478656.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android动态日志系统Holmes

背景 美团是全球领先的一站式生活服务平台,为6亿多消费者和超过450万优质商户提供连接线上线下的电子商务网络。美团的业务覆盖了超过200个丰富品类和2800个城区县网络,在餐饮、外卖、酒店旅游、丽人、家庭、休闲娱乐等领域具有领先的市场地位。平台大&a…

领域应用 | 知识图谱在小米的应用与探索

本文转载自公众号:DataFunTalk。分享嘉宾:彭力 小米编辑整理:马瑶出品平台:DataFunTalk导读:小米知识图谱于2017年创立,已支持公司了每天亿级的访问,已赋能小爱同学,小米有品、智能问…

前端应用开发架构图谱

个人整理的前端架构图谱,之后会根据这个图谱不断的完善内容。希望这个图谱可以对开发同学的知识脉络有个梳理的作用。 相关图谱文件已上传至Github:https://github.com/sahadev/front-end-architecture,后续将不定期更新。 2020年02月28日已…

丹琦女神新作:对比学习,简单到只需要Dropout两下

文 | 花小花Posy上周把 《对比学习有多火?文本聚类都被刷爆了...》分享到卖萌屋的群里后,遭到了群友们一波嫌弃安利。小伙伴们表示,插入替换的数据增强方式已经Out了,SimCSE才是现在的靓仔。snowfloating说:看完Danqi …

美团点评移动端基础日志库——Logan

背景 对于移动应用来说,日志库是必不可少的基础设施,美团点评集团旗下移动应用每天产生的众多种类的日志数据已经达到几十亿量级。为了解决日志模块普遍存在的效率、安全性、丢失日志等问题,Logan基础日志库应运而生。 现存问题 目前&#xf…

整理一波国外前端学习网站

国内的普通开发者对于掌握一门新的技术不知道从哪里下手,看哪些书。为了获得相关知识会关注各种公众号、购买各种视频课程来学习,但由于这些内容本身有碎片化的特点,效果往往不太理想。以至于付出了大量的时间到最后不能够形成系统化的知识。…

论文浅尝 - ACL2020 | Segmented Embedding of Knowledge Graphs

来源:ACL2020链接:https://arxiv.org/pdf/2005.00856.pdf摘要知识图谱的嵌入愈发变成AI的热点之一,对许多下游任务至关重要(如个性化推荐、问答等)同时,此模型强调两个关键特性:利用足够多的特征…

【论文翻译】HeteSim:异构网络中相关性度量的通用框架

原文链接:https://blog.csdn.net/Mrong1013967/article/details/115330139 HeteSim:异构网络中相关性度量的通用框架 摘要 相似性搜索是许多应用中的一个重要功能,它通常侧重于度量同一类型对象之间的相似性。然而,在许多场景中&a…

LeetCode 234. 回文链表(快慢指针+链表反转)

1. 题目 请判断一个链表是否为回文链表。 示例 1: 输入: 1->2 输出: false示例 2: 输入: 1->2->2->1 输出: true进阶: 你能否用 O(n) 时间复杂度和 O(1) 空间复杂度解决此题?来源:力扣(LeetCode) 链接&a…

随机/线性颜色生成器(RandomColorGenerator)

最近在实现https://javascript30.com/的课程,其中有一门课程要求利用Canvas实现一个效果,我发现这个效果其中的颜色是线性生成的。结合我之前已经写过一个随机颜色生成器,就想将这个随机颜色生成器写出来,作为一个工具使用&#x…

美团点评运营数据产品化应用与实践

背景 美团点评作为全球最大的生活服务平台,承接超过千万的POI,服务于数量庞大的活跃用户。在海量数据的前提下,定位运营业务、准确找到需要数据的位置,并快速提供正确、一致、易读的数据就变得异常困难,这些困难主要体…

NAACL’21 | 来看如何让模型学会因为所以但是如果

文 | Eleanor 编 | 戏有一些标准考试那是真的难,难到能分分钟教你做人。对于留学党来说,申请法学博士需要 LSAT 考试成绩、申请商学院需要 GMAT 考试成绩。这些标准考试到底有多难,大概考过的都懂8(嘤嘤嘤_(:з」∠)_)…

领域应用 | 知识计算,华为云赋能企业知识化转型

本文转载自公众号:华为云AI。从计算智能,到感知智能,再到认知智能,是业界普遍认同的人工智能技术发展路径。随着技术的演进,人工智能已经在"听、说、看"等感知智能领域达到或超越了人类水准,但是…

我在小程序工程化方面的一些实践

我在小程序工程化方面的一些实践 早期做小程序时,还是原始时代,项目结构混乱,各种冗余代码,每次迭代时由于高昂的维护成本,极为头疼。遂在一次次的更迭中完成了基础组件的初版,极为酸爽。从此之后在当时的…

LeetCode 430. 扁平化多级双向链表(DFS)

1. 题目 您将获得一个双向链表,除了下一个和前一个指针之外,它还有一个子指针,可能指向单独的双向链表。这些子列表可能有一个或多个自己的子项,依此类推,生成多级数据结构,如下面的示例所示。 扁平化列表…

详解:多模态知识图谱种类及其应用

详解:多模态知识图谱种类及其应用 本文系统的讲述了一些关于多模态知识图谱的相关知识,作者介绍了一些重要的开源多模态知识图谱,基于百科多模态知识图谱Richpedia以及相关使用网站和多模态知识图谱的应用。>>加入极市CV技术交流群&am…

Android Hook技术防范漫谈

背景 当下,数据就像水、电、空气一样无处不在,说它是“21世纪的生产资料”一点都不夸张,由此带来的是,各行业对于数据的争夺热火朝天。随着互联网和数据的思维深入人心,一些灰色产业悄然兴起,数据贩子、爬虫…

论文浅尝 - ICML2020 | 跨域对齐的图最优运输算法

陈卓,浙江大学在读博士,主要研究方向为图神经网络和知识图谱表示学习。论文链接:https://arxiv.org/pdf/2006.14744代码:https://github.com/LiqunChen0606/Graph-Optimal-Transport发表会议:ICML 2020动机该论文的出发…

张俊林:对比学习研究进展精要

文 | 张俊林知乎对比学习(Contrastive Learning)最近一年比较火,各路大神比如Hinton、Yann LeCun、Kaiming He及一流研究机构比如Facebook、Google、DeepMind,都投入其中并快速提出各种改进模型:Moco系列、SimCLR系列、BYOL、SwAV…..&#x…

前端开发者的福音!通过拖拽就可生成Vue代码的平台来了!

Vue组件代码生成平台 Vue组件代码生成平台是一款面向Vue开发者的拖拽式组件代码生成工具。通过它可以快速搭建Vue组件的代码骨架结构。开发者可在此基础上进行二次开发。 目前该平台非常适合快速搭建一个常见的数据查询组件,仅需要拖三个组件进来即可完成&#xf…