机器学习模型在多组学数据中的应用常常需要在预测准确性与生物学可解释性之间进行权衡。一种新兴的深度学习架构通过结构化地编码生物学知识,以提升预测能力和可解释性。然而,更广泛地采用这种架构仍面临着机遇与挑战。

机器学习在高通量技术产生的数据中的应用彻底改变了生物学研究,促进了多种组学数据集在细胞系统多层次模型中的整合。然而,传统“黑箱”机器学习算法的预测能力——以及它们对复杂非线性关系的建模能力——往往以牺牲生物学可解释性为代价。基于生物学信息的神经网络(BINNs)提供了一种有前景的解决方案,通过整合数十年积累的先验生物学知识,将预测准确性与可解释性相结合。这种新兴范式特别适合于理解基于多组学整合中发现的复杂、高维多模态数据集的模型预测。
从“黑箱”到可见神经网络
基于生物学信息的神经网络(BINNs)是一种人工神经网络,其架构明确受到生物学通路本体的约束(见图1)。与依赖于任意选择的隐藏节点数和层数的传统全连接深度学习模型不同,BINNs的设计基于来自Reactome、Gene Ontology或KEGG等数据库的已知通路层级结构。网络中的每个节点代表一个现实世界的生物学实体——例如一个基因、通路或生物学过程——而边则反映了这些实体之间的已知关系。例如,代表基因表达水平的输入节点仅与该基因已知所属的通路的隐藏节点相连。这种结构与传统“黑箱”模型的不透明性形成对比,因此得名为可见神经网络或透明神经网络。

图1:基于生物学信息的神经网络架构
多种组学数据作为输入,其各自的特征通过已知映射与基因相联系。基因反过来又与来自数据库(例如基因、通路和更高级别的过程)的生物学本体层级结构相连接。为了适应不均匀的层级结构,可以使用跳跃连接(虚线)或虚拟节点。全连接的残差节点可能捕捉到未包含在构建架构所使用的结构本体中的相互作用,否则这些相互作用会在预测中嵌入强烈的归纳偏差。无法直接与通路本体联系起来的临床测量或其他数据可以通过神经网络的后期融合或通过虚拟通路包含进来。
基于生物学信息的神经网络架构的应用与成功案例
自2018年左右引入以来,基于生物学信息的神经网络(BINNs)已在生物医学领域得到广泛应用,在肿瘤学、药物反应预测和生存分析等方面取得了显著成功。例如,像P-Net这样的模型已在将分子特征与治疗结果对齐方面显示出有效性。其他扩展则整合了基因组数据与化学结构数据以预测治疗效果,或将多组学和临床数据结合起来以预测精准医学中患者的生存情况。基于生物学信息的神经网络不仅限于监督学习任务;基于生物学信息的变分自编码器——一种无监督学习模型——也已被用于分析细胞过程并辅助药物开发。
最近的应用已将基于生物学信息的神经网络扩展到单细胞测序领域,揭示了细胞异质性和调控网络。尽管早期的研究已经使用了多组学数据,但随着时间的推移,多种模态的整合不断增加。这些模型还被用于发现新的通路相互作用,展示了它们作为发现工具的潜力。
基于生物学信息的神经网络在多组学整合中的优势
多组学数据集本质上是高维的、异质的,并且相对于特征数量而言样本量常常有限。基于生物学信息的神经网络利用生物学先验知识通过在分析流程的早期约束假设空间来降低模型复杂性,这——理想情况下——提高了泛化能力和预测性能,使它们在这些情况下特别有效。
比较研究表明,基于生物学信息的神经网络在各种预测任务中的表现与全连接神经网络相当,甚至更好。例如,基于生物学信息的神经网络似乎在小样本、高维数据集的情境中表现出色,而这些情境对于密集神经网络来说并不理想,但却典型地出现在组学研究中。它们还在捕捉生物系统所固有的非线性、层级关系方面优于传统机器学习模型(见图1),使它们能够提供超越预测的有意义的见解,例如发现新的生物标志物。多种组学数据适合这种层级结构,因为基于生物学信息的神经网络中的节点可以代表任何生物学实体,例如基因、代谢物或蛋白质复合体。在基因组检测中,例如突变或拷贝数变异测量,特征被映射到包含异常的基因。在转录组学和蛋白质组学中,多个转录本或蛋白质可以被映射到一个基因。在代谢组学中,代谢物可能被映射到编码使用或产生相应分子的酶的基因。为了适应多输入,可以选择一个共同的实体(即基因)或者设计专门的输入层。由于基于生物学信息的神经网络是多模态深度学习的特例,因此可以探索不同的数据融合策略。
此外,基于生物学信息的神经网络无缝整合了预测和解释任务。包括密集神经网络在内的传统机器学习模型常常由于其内部节点的不可解释性而无法提供生物学上有意义的见解。事后、模型不可知的可解释性方法提供了输入层面的解释,但容易不稳定,并且可能无法反映高度非线性关系,例如基因与过程之间的关系。相比之下,基于生物学信息的神经网络将可解释性作为固有属性加以强制执行,使预测能够直接与特定基因或通路联系起来。这种先验方法通过纳入已知的生物学约束增强了稳健性,使基于生物学信息的神经网络成为既需要预测又需要推理的任务(例如生物标志物发现和药物靶点验证)的理想选择。
推进基于生物学信息的神经网络用于生物医学发现
尽管基于生物学信息的神经网络具有巨大潜力,但它们仍面临一些挑战。大多数研究都在狭窄的数据集和任务中评估基于生物学信息的神经网络,限制了对其在不同领域和条件下泛化能力的洞察。它们表现优越的原因——无论是由于生物学归纳偏差、多组学数据融合策略还是引入的稀疏性——仍然不清楚。此外,缺乏标准化的基准和工具阻碍了可访问性和可重复性。
为了充分实现其潜力,未来的研究应专注于开发用于构建和评估基于生物学信息的神经网络的稳健框架。扩展使用能够处理各种生物学知识的灵活架构、纳入先进的多模态融合策略以及系统地探索不同本体对基于生物学信息的神经网络的影响将是至关重要的。此外,利用基于生物学信息的神经网络进行假设生成,例如预测新的通路关系,代表了一个令人兴奋的研究机会。
基于生物学信息的神经网络可能代表了计算生物学中的一种变革性方法,将预测准确性与生物学可解释性结合起来。通过嵌入数十年遗传学研究所积累的领域知识,这些架构提供了更透明、数据驱动的生物医学模型,降低了计算成本并实现了内置可解释性。然而,为了充分挖掘其潜力,该领域必须解决关键挑战:
标准化:开发共同的基准和工具,以提高可访问性、可重复性和研究的可比性。
严格评估:进行更全面的评估和消融研究,以了解基于生物学信息的神经网络的性能机制及其相对于其他方法(如图神经网络和传统机器学习)的泛化能力。
灵活架构:探索能够纳入多样化生物学知识和先进数据融合策略的架构。
假设生成:将现代神经架构搜索方法与基于生物学信息的神经网络相结合,可能会解锁新的通路相互作用和调控机制的发现。
聚焦核心:系统地研究选择知识数据库和构建基于生物学信息的神经网络的层级水平,使其与它们的应用密切相关。
克服这些障碍可能会释放多组学和基于生物学信息的神经网络的全部潜力,为基因组学、药物开发和精准医学中的更可解释、数据驱动的发现铺平道路。