Nature子刊 | 基于生物学信息的神经网络

news/2025/10/25 21:13:40/文章来源:https://www.cnblogs.com/miyuanbiotech/p/19165987

机器学习模型在多组学数据中的应用常常需要在预测准确性与生物学可解释性之间进行权衡。一种新兴的深度学习架构通过结构化地编码生物学知识,以提升预测能力和可解释性。然而,更广泛地采用这种架构仍面临着机遇与挑战。

机器学习在高通量技术产生的数据中的应用彻底改变了生物学研究,促进了多种组学数据集在细胞系统多层次模型中的整合。然而,传统“黑箱”机器学习算法的预测能力——以及它们对复杂非线性关系的建模能力——往往以牺牲生物学可解释性为代价。基于生物学信息的神经网络(BINNs)提供了一种有前景的解决方案,通过整合数十年积累的先验生物学知识,将预测准确性与可解释性相结合。这种新兴范式特别适合于理解基于多组学整合中发现的复杂、高维多模态数据集的模型预测。

从“黑箱”到可见神经网络

基于生物学信息的神经网络(BINNs)是一种人工神经网络,其架构明确受到生物学通路本体的约束(见图1)。与依赖于任意选择的隐藏节点数和层数的传统全连接深度学习模型不同,BINNs的设计基于来自Reactome、Gene Ontology或KEGG等数据库的已知通路层级结构。网络中的每个节点代表一个现实世界的生物学实体——例如一个基因、通路或生物学过程——而边则反映了这些实体之间的已知关系。例如,代表基因表达水平的输入节点仅与该基因已知所属的通路的隐藏节点相连。这种结构与传统“黑箱”模型的不透明性形成对比,因此得名为可见神经网络或透明神经网络。




图1:基于生物学信息的神经网络架构

多种组学数据作为输入,其各自的特征通过已知映射与基因相联系。基因反过来又与来自数据库(例如基因、通路和更高级别的过程)的生物学本体层级结构相连接。为了适应不均匀的层级结构,可以使用跳跃连接(虚线)或虚拟节点。全连接的残差节点可能捕捉到未包含在构建架构所使用的结构本体中的相互作用,否则这些相互作用会在预测中嵌入强烈的归纳偏差。无法直接与通路本体联系起来的临床测量或其他数据可以通过神经网络的后期融合或通过虚拟通路包含进来。

基于生物学信息的神经网络架构的应用与成功案例

自2018年左右引入以来,基于生物学信息的神经网络(BINNs)已在生物医学领域得到广泛应用,在肿瘤学、药物反应预测和生存分析等方面取得了显著成功。例如,像P-Net这样的模型已在将分子特征与治疗结果对齐方面显示出有效性。其他扩展则整合了基因组数据与化学结构数据以预测治疗效果,或将多组学和临床数据结合起来以预测精准医学中患者的生存情况。基于生物学信息的神经网络不仅限于监督学习任务;基于生物学信息的变分自编码器——一种无监督学习模型——也已被用于分析细胞过程并辅助药物开发。

最近的应用已将基于生物学信息的神经网络扩展到单细胞测序领域,揭示了细胞异质性和调控网络。尽管早期的研究已经使用了多组学数据,但随着时间的推移,多种模态的整合不断增加。这些模型还被用于发现新的通路相互作用,展示了它们作为发现工具的潜力。

基于生物学信息的神经网络在多组学整合中的优势

多组学数据集本质上是高维的、异质的,并且相对于特征数量而言样本量常常有限。基于生物学信息的神经网络利用生物学先验知识通过在分析流程的早期约束假设空间来降低模型复杂性,这——理想情况下——提高了泛化能力和预测性能,使它们在这些情况下特别有效。

比较研究表明,基于生物学信息的神经网络在各种预测任务中的表现与全连接神经网络相当,甚至更好。例如,基于生物学信息的神经网络似乎在小样本、高维数据集的情境中表现出色,而这些情境对于密集神经网络来说并不理想,但却典型地出现在组学研究中。它们还在捕捉生物系统所固有的非线性、层级关系方面优于传统机器学习模型(见图1),使它们能够提供超越预测的有意义的见解,例如发现新的生物标志物。多种组学数据适合这种层级结构,因为基于生物学信息的神经网络中的节点可以代表任何生物学实体,例如基因、代谢物或蛋白质复合体。在基因组检测中,例如突变或拷贝数变异测量,特征被映射到包含异常的基因。在转录组学和蛋白质组学中,多个转录本或蛋白质可以被映射到一个基因。在代谢组学中,代谢物可能被映射到编码使用或产生相应分子的酶的基因。为了适应多输入,可以选择一个共同的实体(即基因)或者设计专门的输入层。由于基于生物学信息的神经网络是多模态深度学习的特例,因此可以探索不同的数据融合策略。

此外,基于生物学信息的神经网络无缝整合了预测和解释任务。包括密集神经网络在内的传统机器学习模型常常由于其内部节点的不可解释性而无法提供生物学上有意义的见解。事后、模型不可知的可解释性方法提供了输入层面的解释,但容易不稳定,并且可能无法反映高度非线性关系,例如基因与过程之间的关系。相比之下,基于生物学信息的神经网络将可解释性作为固有属性加以强制执行,使预测能够直接与特定基因或通路联系起来。这种先验方法通过纳入已知的生物学约束增强了稳健性,使基于生物学信息的神经网络成为既需要预测又需要推理的任务(例如生物标志物发现和药物靶点验证)的理想选择。

推进基于生物学信息的神经网络用于生物医学发现

尽管基于生物学信息的神经网络具有巨大潜力,但它们仍面临一些挑战。大多数研究都在狭窄的数据集和任务中评估基于生物学信息的神经网络,限制了对其在不同领域和条件下泛化能力的洞察。它们表现优越的原因——无论是由于生物学归纳偏差、多组学数据融合策略还是引入的稀疏性——仍然不清楚。此外,缺乏标准化的基准和工具阻碍了可访问性和可重复性。

为了充分实现其潜力,未来的研究应专注于开发用于构建和评估基于生物学信息的神经网络的稳健框架。扩展使用能够处理各种生物学知识的灵活架构、纳入先进的多模态融合策略以及系统地探索不同本体对基于生物学信息的神经网络的影响将是至关重要的。此外,利用基于生物学信息的神经网络进行假设生成,例如预测新的通路关系,代表了一个令人兴奋的研究机会。

基于生物学信息的神经网络可能代表了计算生物学中的一种变革性方法,将预测准确性与生物学可解释性结合起来。通过嵌入数十年遗传学研究所积累的领域知识,这些架构提供了更透明、数据驱动的生物医学模型,降低了计算成本并实现了内置可解释性。然而,为了充分挖掘其潜力,该领域必须解决关键挑战:

标准化:开发共同的基准和工具,以提高可访问性、可重复性和研究的可比性。

严格评估:进行更全面的评估和消融研究,以了解基于生物学信息的神经网络的性能机制及其相对于其他方法(如图神经网络和传统机器学习)的泛化能力。

灵活架构:探索能够纳入多样化生物学知识和先进数据融合策略的架构。

假设生成:将现代神经架构搜索方法与基于生物学信息的神经网络相结合,可能会解锁新的通路相互作用和调控机制的发现。

聚焦核心:系统地研究选择知识数据库和构建基于生物学信息的神经网络的层级水平,使其与它们的应用密切相关。

克服这些障碍可能会释放多组学和基于生物学信息的神经网络的全部潜力,为基因组学、药物开发和精准医学中的更可解释、数据驱动的发现铺平道路。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/946431.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025年项目总延期?这30款项目进度管理软件一定有一款适合你!

项目总延期是困扰团队效率的常见难题,但选对工具能让交付率提升至85%以上。本文将为您精选30款高效的项目进度管理软件,覆盖从敏捷开发到传统瀑布模型的不同需求。无论是Codes的全流程管控、Jira的敏捷适配性,还是T…

Educational Codeforces Round 66 (Rated for Div. 2) A~F

A - From Hero to Zero 模拟。 能除 \(k\) 直接除 \(k\),否则减掉余数部分。点击查看代码 #include <bits/stdc++.h>using i64 = long long;void solve() {i64 n, k;std::cin >> n >> k;i64 ans = …

小程序原创--基于微信开发者工具实现的猜谜游戏程序 - 教程

小程序原创--基于微信开发者工具实现的猜谜游戏程序 - 教程2025-10-25 21:07 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !importan…

stm32使用SPI外设读取W25Q32芯片

void SPI_GPIO_Init(void) {//SPI2-NSS PB12:PIN25 --CS//SPI2-SCK PB13:PIN26//SPI2-MISO PB14:PIN27 W25Q32:DO//SPI2-MOSI PB15:PIN28 W25Q32:DIGPIO_InitTypeDef GPIO_InitStruct; SPI_InitTypeDef …

Avjinder Singh Kaler | 数量遗传学基础

研究对象与核心思想• 数量遗传学研究数量性状(如身高、产量等连续变异性状)的遗传规律。 • 特点:受多基因控制,且环境效应显著。单基因模型基础• 单基因模型是数量遗传理论的起点,假设一个基因位点有两个等位基…

鲁东大学提出可解释的自适应集成机器学习全基因组选择算法用于小麦产量性状关键SNPs筛选

研究背景 全基因组选择(genomic selection, GS)是现代分子育种中的一项重要技术,作为一种强大的机器学习GS方法,堆叠集成学习(stacking ensemble learning, SEL)有效地融合了不同模型(基学习器)的优势,以精确…

台球厅收银台押金原路退回系统押金预授权—东方仙盟 - 详解

台球厅收银台押金原路退回系统押金预授权—东方仙盟 - 详解pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consol…

数论专题小记

我的数论以前一只因为对数字的恐惧而搁置,准备这几天补回来 /kk。 狄利克雷卷积&莫比乌斯反演我们定义 狄利克雷卷积 这种运算是把两个数轮函数 \(f,g\) 卷成另一个函数 \(t\),其中 \(t\) 满足: \(\ \ \ \ \ \ …

ReactUse 与ahook对比 - 实践

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

机械臂和相机的9点标定原理

9点标定到底怎么工作的? 这个问题困惑了我很久,虽然想海康VisionMaster 和Halcon 这种软件都提供了很好用的工件,但是最好懂原理,这样才不仅能做项目,还能做好项目。 最近好好研究了一下,感觉是搞清楚了,就记录…

遗传改良中的核心技术:交配设计

分享一则报告,系统总结了植物育种中常用的交配设计(Mating Designs)方法。定义与目的定义:交配设计是指为产生后代而在植物群体间有计划的杂交方案。目的:理解性状或行为的遗传控制机制;为作物品种开发提供基础群…

语言是火,视觉是光:论两种智能信号的宿命与人机交互的未来 - 教程

语言是火,视觉是光:论两种智能信号的宿命与人机交互的未来 - 教程pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: &quo…

书籍推荐 | 《数量遗传学》(王建康)

数量遗传学是智能育种必学课程,这里推荐一本由中国农科院作物科学研究所王建康老师主编的教材。本书系统介绍群体遗传与数量遗传的基本理论及其在动植物育种中的应用。全书分群体遗传、数量遗传、育种应用和基因定位四…

Plant Com | 一种新的多源数据(基因组、表型和跨环境)融合的基因组预测框架-GPS

基因组选择(GS)和表型选择(PS)被广泛用于加速植物育种。然而,在处理处理复杂性状时,这两种选择方法的准确性、稳健性和可转移性尚未得到充分探索。近日,南京农业大学丁艳锋团队在Plant Communications发表题为G…

分享二个实用正则

正则表达式是一种用于匹配和操作文本的强大工具。它由一系列字符和特殊字符组成,用于描述要匹配的文本模式。最近看到二个我觉得很实用的正则使用方式,一起来看看吧前言 正则表达式(Regular Expression,简称regex或…

国际水稻研究所推出 AI 驱动的全球杂交水稻育种与亲本筛选数字平台

菲律宾洛斯巴诺斯(2025 年 2 月 26 日)——国际水稻研究所(IRRI)正式发布全新 AI 驱动数字平台,可显著加速全球杂交水稻育种与亲本筛选工作,通过推广高产且气候智能型杂交水稻,为粮食安全与可持续农业作出贡献。…

《程序员修炼之道:从小工到专家》笔记1

1核心身份认同:本书开篇即定义了“注重实效的程序员”的形象。我们不仅是代码的搬运工,更是项目的看护人和利益的守护者。我们勇于承担责任,而不是找借口。 2两大核心哲学: “我的源码让猫给吃了”:这是一种反讽。…

深入解析:UNIX下C语言编程与实践3-Vi 编辑器从入门到精通:快捷键使用与高效编辑技巧

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

科普报告:分子标记辅助选择(MAS)育种

分享一则由埃及农业基因工程研究所(AGERI)的Dina El-Khishin教授撰写《Marker Assisted Selection(MAS,标记辅助选择)》的报告,系统介绍了分子标记在植物育种中的应用,特别是如何利用MAS技术应对气候变化背景下…

实用指南:【ansible/K8s】K8s的自动化部署源码分享

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …