​Nat. Commun.速递:深度学习在计算生物学中的应用综述

69636703ee00f9185d944a624e7c9765.png

来源:集智俱乐部

作者:郭瑞东 

审校:梁金 

编辑:邓一雪

摘要

蛋白质结构预测是计算生物学中一个长达半个世纪的重大挑战,最近,深度学习在这方面取得了前所未有的进展。4月1日,一项发表在 Nature Communications 上的最新论文从蛋白质结构预测、蛋白质功能预测、基因工程、系统生物学和数据集成以及系统发育推断五个方面探讨了深度学习的最新进展、局限性和对未来的展望。文章讨论了每个应用领域,并讨论了深度学习方法的主要瓶颈,如训练数据、问题范围,以及在新环境中利用现有深度学习架构的能力,最后总结了深度学习在生物科学领域面临的学科相关和一般性挑战。

研究领域:深度学习,结构生物学,蛋白质结构

1755fbec80d6bef579f997aff9f14c71.png

论文题目:

Current progress and open challenges for applying deep learning across the biosciences

论文链接:

https://www.nature.com/articles/s41467-022-29268-7

AlphaFold2 成功地预测蛋白质3D结构问题,已成为深度学习在计算生物学领域的典型范例。Nature Communication 的综述“在生物学中应用深度学习的当前进展和开放挑战”,系统性介绍了在生物学中应用深度学习,当前取得的成果以及有待解决的开放性问题。

综述先介绍了在生物领域广泛应用的模型架构,指出所使用的模型包含有监督、无监督和强化学习三个范式。图神经网络、图像识别(CNN)以及自然预言处理(RNN,transformer)中的常见模型,都已在生物领域被成功应用。

38a3cfedee39b3f6742afec9b8b62691.png图1. 深度学习所需的数据集的数量级及常用模型

文中将取得的成就分为四种:范式革命、显著、中等和较小范围内的成功。按照应用场景,指出五类问题当前的进展、公开数据集的大小、常用的模型架构。

       2a5ff9a45dbf619059e563b78ca76cf2.png

图2. 深度学习在各个领域取得的进展程度

综述指出,尽管深度学习在例如蛋白质结构预测取得了范式转移级的成功,改变了该领域的默认选项。在更多的领域,如蛋白质功能预测、基因工程(例如基因编辑)和多组学数据集成中也取得了长足的进步。然而相对于传统的方法,对于其他领域,例如系统发育推断、经典的计算方法在这些领域仍然占据上风。并不是所有深度学习的应用在计算生物学都同样成功。成功的领域高度依赖于具有多样性、无偏采样且贴近实际应用场景的大量有标注及无标准的标准数据集。

除了概述各领域的进展,该综述的亮点在于指出了在生物领域应用深度学习面对的一般性挑战和可能的解决方案:

1. 有偏的结论:即模型给出的结论和真实情况不符。面对这一问题,需要的是改进实验设计,避免训练数据和实际数据的分布有差异,还需要识别出模型有偏的原因,在针对性的使用更公平的模型。

2. 较高的计算成本:可解决方案是并行运算及优化代码,或选用部分(核心)数据进行训练,同时改进AI架构,使用更高能耗的计算设施。

3. 模型缺少解释性:对此一方面可以采用例如SHAP[1]的统计分析,对特征的重要性进行评估,或使用像GNNExplainer[2]这样的工具,对基于GNN的模型训练完成后给出解释。

4. 有限的训练数据集:可行的解决方案包括标注更多的数据,以及使用模型进行数据增强,基于现有数据集生成新的类似的训练数据。

5. 过拟合:应对方式包括正则化、丢弃神经元dropout、提早停止训练、使用容量更小的模型以及采用更多的训练数据。

6. 模型在新数据上的表现较差:此时应该扩展数据集或使用容量更大的模型,并结合生物学知识对模型的泛化能力进行分析,例如在基于人的数据训练的 Deep Variant 在包含多对而不是一对染色体的动植物上检出突变的表现很差(因为其生物学机制不同,需使用相应的训练数据)。

综述着重强调了模型的可解释性以及训练过程中的效率,其中既包括了训练成本高,也包括了训练好的模型只适用于特定领域。并针对性地给出了更详细的可行建议。

参考文献:

1. Lundberg, S. M. & Lee, S.-I. A unified approach to interpreting model predictions. In Proceedings of the 31st International Conference on Neural Information Processing Systems, 4768–4777 (2017).

2. Ying, R., Bourgeois, D., You, J., Zitnik, M. & Leskovec, J. GNNExplainer: Generating explanations for graph neural networks. Adv. Neural Inf. Process. Syst. 32, 9240 (2019)

论文 Abstract

Deep Learning (DL) has recently enabled unprecedented advances in one of the grand challenges in computational biology: the half-century-old problem of protein structure prediction. In this paper we discuss recent advances, limitations, and future perspectives of DL on five broad areas: protein structure prediction, protein function prediction, genome engineering, systems biology and data integration, and phylogenetic inference. We discuss each application area and cover the main bottlenecks of DL approaches, such as training data, problem scope, and the ability to leverage existing DL architectures in new contexts. To conclude, we provide a summary of the subject-specific and general challenges for DL across the biosciences.

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

fdcc3fd86c707a55578a8d1fad113e96.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482259.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

吸烟者问题

文章目录1 问题描述2 问题分析3 代码实现:1 问题描述 假设一个系统有三个抽烟者进程和一个供应者进程。每个抽烟者不停地卷烟并抽掉它,但是要卷起并抽掉一支烟,抽烟者需要有三种材料:烟草、纸和胶水。三个抽烟者中,第一…

无人驾驶出租车遭警察拦截后欲“潜逃”,AI 是原罪?

整理:苏宓出品:CSDN(ID:CSDNnews)所谓开车在路上,最讨厌的有几种人,一是插自己队和不让自己插队的,二想必就是晚上开远光灯和不开灯的。在交通交规下且汽车正常行驶过程中&#xff0…

人工智能,装在罐子里

来源:学术头条作者:Rich Heimann“装在罐子里的大脑”(brain in a jar)是一项对脱离身体、生活在一罐食物中的人类大脑进行的思想实验。这个思维实验探索了人类对现实、心灵和意识的概念。本文将探讨一个反对人工智能(…

10 操作系统第二章 进程管理 死锁、死锁的处理策略 银行家算法

文章目录1 死锁1.1 死锁定义1.2 死锁、饥饿、死循环的区别1.3 死锁产生的必要条件1.4 什么时候会发生死锁1.5 死锁的处理策略1.6 死锁的概念小结2 死锁预防2.1 破坏互斥条件2.2 破坏不剥夺条件2.3 破坏请求和保持条件2.4 破坏循环等待条件2.5 预防死锁小结3 死锁避免3.1 安全序…

短期记忆容量必需有限

来源:CreateAMind介绍一篇论文:预测性大脑的短期记忆能力肯定是有限的短期保持信息的能力可能是人类认知的一个标志, 因为它是许多领域所需要的,如感知、行动计划和语言。没有大脑的这一核心功能,人类无法思考、推理或计算,甚至可能无法感知。尽管短期记…

读者-写者问题

文章目录1 问题描述2 问题分析3 代码实现1 问题描述 有读者和写者两组并发进程,共享一个文件,当两个或两个以上的读进程同时访问共享数据时不会产生副作用,但若某个写进程和其他进程(读进程或写进程)同时访问共享数据时…

9 操作系统第二章 进程管理 管程

文章目录1 管程1.1 为什么引入管程1.2 管程的定义和基本特征1.3 管程小结1 管程 1.1 为什么引入管程 产生原因:信号量机制存在的问题:编写程序困难、易出错 能不能设计一种机制,让程序员写程序是不需要再关注复杂的PV操作,使得代…

2021年世界科技进展100项

来源:三思派 作者:李万,钱娅妮1生命、生物、医药健康01新冠疫情1. 首次看清新冠患者体内蛋白质变化中国科学家分析出新冠肺炎死亡患者体内多器官组织样本中蛋白质分子病理全景图,相当于将医生在显微镜下看到的人体感染新冠病毒后细…

图灵奖获得者、信息安全常青树Adi Shamir:从密码学到AI对抗性样本研究|智源大会嘉宾风采...

来源:智源大会导读:RSA 算法是通信、金融产业中被广泛使用的安全基本机制,是信息时代的支柱技术。而在这个跨时代算法背后的设计者之一,正是密码学先驱 Adi Shamir。除了RSA 公钥密码算法以外,零知识证明、差分密码分析…

11 操作系统第三章 内存管理 内存的基本知识 内存管理 内存空间扩充 连续分配管理方式

文章目录1 内存概念1.1 内存作用1.2 逻辑地址VS物理地址1.3 装入的三种方式1.3.1 绝对装入1.3.2 可重定位装入1.3.3 动态重定位装入1.4 链接的三种方式1.4.1 静态链接1.4.2 装入时动态链接1.4.3 运行时动态链接1.5 内存的基础知识小结2 内存管理2.1 内存管理的任务2.2 内存保护…

Nature长文:打破AI黑盒的“持久战”

来源:大数据文摘2020年2月,随着 COVID-19在全球迅速传播且抗原检测难以获得,一些医生转向人工智能(AI)来尝试诊断病例。一些研究人员采用深度神经网络通过查看X射线和胸部计算机断层扫描(CT)扫描来快速区分患有COVID-19肺炎的人和未患肺炎的人…

12 操作系统第三章 内存管理 非连续分配管理方式 基本分页存储管理 基本分段存储管理 段页式存储管理

文章目录1 基本分页存储管理1.1 什么是分页存储1.2 重要的数据结构——页表1.3 基本地址变换机构1.4 具有快表的地址变换机构1.4.1 什么是快表(TLB)1.4.2 引入快表后,地址的变换过程1.4.3 地址变换过程小结1.5 两级页表1.5.1 单级页表存在的问…

13 操作系统第三章 内存管理 虚拟内存 请求分页管理方式 页面置换算法 页面分配策略

文章目录1 虚拟内存1.1 传统存储管理方式的特征、缺点1.2 局部性原理1.3 虚拟内存主要特征1.4 如何实现虚拟内存技术1.5 虚拟内存的基本概念小结2 请求分页管理方式2.1 页表机制2.2 缺页中断机构2.3 地址变换机构2.4 请求分页管理方式小结3 页面置换算法3.1 最佳置换算法 OPT3.…

视觉意识的主动推理模型

来源:CreateAMind论文介绍:在这里,我们旨在通过推进全球神经元工作区的扩展(预测性全球神经元工作区(PGNW))来克服这些限制,该工作区将 GNW 的基本方面与更近期的(贝叶斯)主动推理方法相结合,以理解大脑功能。具体来说,我们提出了一个基于主动推理的视觉…

14 操作系统第四章 文件管理 文件逻辑结构 文件目录结构

文章目录1 初识文件管理1.1文件属性1.2 文件内部的数据应该怎样组织起来?1.3 文件之间应该怎样组织起来?1.4 操作系统应该向上提供哪些功能?1.5 文件应如何存放在外存?1.6 文件系统总览2 文件逻辑结构2.1 文件分类2.2 顺序文件2.3…

AlphaFold 和 AI 蛋白质折叠革命的下一步是什么

来源:ScienceAI编辑:萝卜皮十多年来,分子生物学家 Martin Beck 团队一直在努力拼凑世界上最难的拼图游戏之一:人类细胞中最大分子机器的详细模型。这种被称为核孔复合体的庞然大物控制着分子进出细胞核的流动,也就是基…

15 操作系统第四章 文件管理 文件的物理结构 文件存储空间管理

文章目录1 文件的物理结构 (文件分配方式)1.1 文件块、磁盘块1.2 文件分配方式——连续分配1.3 文件分配方式——链接分配1.3.1 链接分配——隐式链接1.3.2 链接分配——显式链接1.3.3 链接分配(总结)1.4 文件分配方式——索引分配…

专访微软Greg Yang,构建神经网络的底层语言,探索AI的“万物理论”

来源:智源社区为了进一步解读这一工作背后的意义,智源社区采访了论文一作、微软研究院高级研究员Greg Yang(杨格)。采访中,我们不仅了解了Transfer的背景,以及项目背后更为远大的目标,也了解到了…

16 操作系统第四章 文件管理 文件的基本操作 文件共享 文件保护 文件系统的层次结构

文章目录1 文件的基本操作1.1 创建文件1.2 删除文件1.3 打开文件1.4 关闭文件1.5 读文件1.6 写文件1.7 文件基本操作小结2 文件共享2.1 基于索引结点的共享方式(硬链接)2.2 基于符号链的共享方式(软链接)2.3 文件共享小结3 文件保…

人工智能与量子计算在有前途的新忆阻器中融合

来源:ScienceAI编辑:萝卜皮近年来,计算在两个主要方面取得了进步——机器学习方面的突破,以开发通过经验自动改进的算法,以及对理论上证明比任何超级计算机更强大的量子计算机的研究。现在,科学家们已经创建…