论文浅尝 - ICLR2021 | BERTology 遇上生物学:在蛋白质语言模型中解释注意力

          

来源:ICLR2021

链接:https://arxiv.org/abs/2006.15222v3

一.动机

Transformer架构已经被证明可以学习有用的蛋白质分类和生成任务表示。然而,在可解释性方面存在挑战。

二.亮点

本文通过attention分析蛋白质Transformer模型,通过attention(1)捕获蛋白质的折叠结构,将在底层序列中相距很远但在三维结构中空间接近的氨基酸连接起来(2)以蛋白质的关键功能成分结合位点为靶点(3)关注随着层深度的增加而逐渐变得更加复杂的生物物理特性。这一行为在三个Transformer架构(BERT、ALBERT、XLNet)和两个不同的蛋白质数据集上是一致的。并提出了一个三维可视化的方法显示attention和蛋白质结构之间的相互作用。

三.方法论

Model:

Attention analysis:

计算高attention对()在数据集X中存在的比例。

Datasets:

ProteinNet用于氨基酸和contact map的分析,Secondary Structure用于二级结构的分析,在Secondary Structure的基础上创建了第三个关于结合位点和转录修饰点的数据集,其中添加了从蛋白质数据库web api获得的结合位点和PTM注释。

四.实验

4.1蛋白质结构

Figure 2

Attention与contact maps在最深层强烈一致:图2显示了根据公式1定义的指标,在被评估的五个模型中,attention如何与contact map相一致。在最深层发现了最一致的头,对接触的关注达到44.7% (TapeBert)、55.7% (ProtAlbert)、58.5% (ProtBert)、63.2% (ProtBert- bfd)和44.5% (ProtXLNet),而数据集中所有氨基酸对的接触背景频率为1.3%。单个头ProtBert- bfd具有最好的效果,其含有420M参数,同时也是唯一在BFD预训练。

考虑到模型是在没有任何空间信息的情况下进行的语言建模任务训练,这些具有结构意识的head的存在值得关注。一种可能是接触更可能发生生物化学作用,在接触的氨基酸之间产生统计依赖。

4.2结合位点和转录修饰点

Figure 3

在模型的大多数层Attention意在结合位点:对结合位点的关注在ProtAlbert模型中最为显著(图3b),该模型有22个头,将超过50%的注意力集中在结合位点上,而数据集中结合位点的背景频率为4.8%。三种BERT模型(图3a、3c和3d)对结合位点的关注也很强,注意头对结合位点的关注分别达到48.2%、50.7%和45.6%。

ProtXLNet(图3 e)目标结合位点,但不像其它模型强烈:最一致的头有15.1%attention关注结合位点,平均头将只有6.2%的attention关注结合位点,而前四个模型均值以次为13.2%,19.8%,16.0%,和15.1%。目前还不清楚这种差异是由于架构的差异还是由于预训练目标的差异;例如,ProtXLNet使用双向自回归预训练方法(见附录a .2),而其他4个模型都使用掩码语言建模。结合位点是蛋白质与其他大分子的相互作用位置,这决定了蛋白质的高级功能,即使序列整体进化,结合位点也将被保留,同时结合位点的结构也局限于特定的家族或超家族,结合位点可以揭示蛋白质之间的进化关系,因此结合位点可能为模型提供对个体序列变化具有鲁棒性的蛋白质的高级描述。

一小部分Head的attention意在PTMs, TapeBert中的Head 11-6集中了64%的注意力在PTM位置上,尽管这些只发生在数据集中0.8%的序列位置上。

4.3跨层分析

在较深层attention意在高级属性:图4中较深的层相对更关注结合位点和contact(高级概念),而二级结构(低级到中级概念)则更均匀地跨层定位;Attention probe显示关于contact map的知识主要在最后1-2层被编码进注意权重,这与基于文本的Transformer模型在较深层次处理更复杂的属性相一致;Embedding probe(图5,橙色)也表明,模型首先在较低层构建局部二级结构的表示,然后在较深层完全编码结合位点和接触图。然而,这一分析也揭示了在接触图的知识如何在嵌入中积累的明显差异,embedding是在多个层次上逐渐积累这种知识,而attention权重则只在最后的层次上获得这种知识。

4.4氨基酸和可替代矩阵

根据图6,attention head关注特定氨基酸,那么每个head是否记住了特定的氨基酸或者学会了与氨基酸相关的有意义的特性,为了验证这个猜想,计算了所有不同氨基酸对与头部注意力分布之间的皮尔逊相关系数(图7 左)并发现与BLOSUM62(图7 右)的皮尔逊系数为0.73,表明attention适度与可替代关系统一。

五.总结

本文将NLP的可解释性方法应用于蛋白质序列建模,并在此基础上建立了NLP与计算生物学的协同效应并展示了Transformer语言模型如何恢复蛋白质的结构和功能特性,并将这些知识直接整合到它的注意机制中。虽然本文的重点是将注意力与已知的蛋白质特性协调起来,但人们也可以利用注意力来发现新的关系或现有措施的更细微的形式

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478379.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

运维工程师社招、校招面试经验汇总

作者:牛客65928553号 链接:https://www.nowcoder.com/discuss/742781?typeall&ordertime&pos&page1&ncTraceId&channel-1&source_idsearch_all_nctrack 来源:牛客网 9.13-招银智能运维工程师 牛客65928553号 #招银…

Vuex框架原理与源码分析

Vuex是一个专为Vue服务,用于管理页面数据状态、提供统一数据操作的生态系统。它集中于MVC模式中的Model层,规定所有的数据操作必须通过 action - mutation - state change 的流程来进行,再结合Vue的数据视图双向绑定特性来实现页面的展示更新…

在错误的数据上,刷到 SOTA 又有什么意义?

文 | Severus编 | 小轶小编注:前段时间,小屋介绍了吴恩达老师近期发起的以数据为中心的 AI 竞赛(参见《吴恩达发起新型竞赛范式!模型固定,只调数据?!》)。吴恩达老师认为&#xff1a…

论文浅尝 | BoxE:一种基于Box的知识图谱表示学习模型

笔记整理 | 耿玉霞,浙江大学直博生。研究方向:知识图谱,零样本学习等。论文链接: https://arxiv.org/pdf/2007.06267.pdf本文是发表在NeurIPS 2020上的一篇基于Box的知识图谱表示学习模型的文章。在以往知识图谱表示学习(KG Embe…

LeetCode 127. 单词接龙(图的BFS/双向BFS)

文章目录1. 题目2. 图的BFS解题2.1 单向BFS2.2 双向BFS !厉害了1. 题目 给定两个单词(beginWord 和 endWord)和一个字典,找到从 beginWord 到 endWord 的最短转换序列的长度。 转换需遵循如下规则: 每次转换只能改变…

Leaf——美团点评分布式ID生成系统

在复杂分布式系统中,往往需要对大量的数据和消息进行唯一标识。如在美团点评的金融、支付、餐饮、酒店、猫眼电影等产品的系统中,数据日渐增长,对数据分库分表后需要有一个唯一ID来标识一条数据或消息,数据库的自增ID显然不能满足…

@开发者,第二届马栏山杯国际音视频算法大赛高分攻略请查收,心动大奖等你来战!...

一秒让墙上的广告消失,保留完整墙面;户外大屏幕显示LOGO被擦除后,背景毫不违和……欢迎来到魔法世界——停!这其实并不是什么魔法,而是由弗吉尼亚理工大学提出的基于流的视频补全算法FGVC的一项应用。作为视频的“橡皮…

论文小综 | Attention in Graph Neural Networks

作者 | 方尹、杨海宏,浙江大学在读博士,主要研究方向为图表示学习近年来,图卷积神经网络(Graph Convolutional Network, GCN)利用图卷积从图结构数据中提取特征,成功应用于节点分类、图分类、链接预测等任务,用途广泛。…

LeetCode 126. 单词接龙 II(图的BFS)

1. 题目 给定两个单词(beginWord 和 endWord)和一个字典 wordList,找出所有从 beginWord 到 endWord 的最短转换序列。 转换需遵循如下规则: 每次转换只能改变一个字母。转换过程中的中间单词必须是字典中的单词。 说明: 如果…

Dockerfile构建docker镜像注意事项

注意:Dockerfile 的指令每执行一次都会在 docker 上新建一层。所以过多无意义的层,会造成镜像膨胀过大。例如: FROM centos RUN yum install wget RUN wget -O redis.tar.gz "http://download.redis.io/releases/redis-5.0.3.tar.gz&qu…

外卖订单量预测异常报警模型实践

外卖业务的快速发展对系统稳定性提出了更高的要求,每一次订单量大盘的异常波动,都需要做出及时的应对,以保证系统的整体稳定性。如何做出较为准确的波动预警,显得尤为重要。 从时间上看,外卖订单量时间序列有两个明显的…

聊一聊“超大模型”

文 | 金雪锋源 | 知乎最近经常被问,你看“万亿的模型都出来了,你们训练的千亿模型是不是落伍了?”我想说:“虽然都叫超大模型,但是类型是不一样的,虽说每一类模型训出来都不容易,不过澄清一下概…

技术动态 | 不确定性知识图谱的表示和推理

本文转载自漆桂林知乎。作者 | 张嘉韬、漆桂林、吴天星文章链接 | https://zhuanlan.zhihu.com/p/369068016

LeetCode 665. 非递减数列(双指针)

1. 题目 给定一个长度为 n 的整数数组&#xff0c;你的任务是判断在最多改变 1 个元素的情况下&#xff0c;该数组能否变成一个非递减数列。 我们是这样定义一个非递减数列的&#xff1a; 对于数组中所有的 i (1 < i < n)&#xff0c;满足 array[i] < array[i 1]。…

docker build 中的上下文路径

上下文路径 上一节中&#xff0c;有提到指令最后一个 . 是上下文路径&#xff0c;那么什么是上下文路径呢&#xff1f; $ docker build -t nginx:v3 .上下文路径&#xff0c;是指 docker 在构建镜像&#xff0c;有时候想要使用到本机的文件&#xff08;比如复制&#xff09;&a…

数据还是模型?人类知识在深度学习里还有用武之地吗?

文 | Severus编 | 小戏近些年来&#xff0c;随着数据量越来越多&#xff0c;算力价格越来越便宜&#xff0c;根植于数据算力的深度学习茁壮成长。在这种背景下&#xff0c;作为一种强有力的表示学习方法的深度学习让人们惊讶的发现&#xff0c;只要投喂足够多的数据&#xff0c…

HDFS Federation在美团点评的应用与改进

一、背景 2015年10月&#xff0c;经过一段时间的优化与改进&#xff0c;美团点评HDFS集群稳定性和性能有显著提升&#xff0c;保证了业务数据存储量和计算量爆发式增长下的存储服务质量&#xff1b;然而&#xff0c;随着集群规模的发展&#xff0c;单组NameNode组成的集群也产生…

docker compose linux安装以及使用

1 安装 Compose 安装 Linux Linux 上我们可以从 Github 上下载它的二进制包来使用&#xff0c;最新发行的版本地址&#xff1a;https://github.com/docker/compose/releases。 运行以下命令以下载 Docker Compose 的当前稳定版本&#xff1a; $ sudo curl -L "https://g…

LeetCode 130. 被围绕的区域(图的BFS/DFS)

文章目录1. 题目2. 解题2.1 BFS2.2 DFS1. 题目 给定一个二维的矩阵&#xff0c;包含 ‘X’ 和 ‘O’&#xff08;字母 O&#xff09;。 找到所有被 ‘X’ 围绕的区域&#xff0c;并将这些区域里所有的 ‘O’ 用 ‘X’ 填充。 示例: X X X X X O O X X X O X X O X X 运行你的…

论文浅尝 - ECIR2021 | 两种实体对齐方法的严格评估

笔记整理 | 谭亦鸣&#xff0c;东南大学博士生来源: ECIR 2021在这篇工作中&#xff0c;作者对两种SOTA实体对齐方法做了广泛的研究&#xff1a;首先仔细分析了现有benchmark的过程&#xff0c;并论证了其中存在一些缺陷&#xff0c;使得原始方法给出的实验结果之间可能存在不可…