拜耳作物科学提出一种生物学引导的神经网络框架用于基因组选择(GS)

news/2025/10/26 20:20:18/文章来源:https://www.cnblogs.com/miyuanbiotech/p/19167304

分享一篇2025年10月16日由拜耳旗下的拜耳作物科学公司在arxiv预印本上发表的文章:Biology-informed neural networks learn nonlinear representations from omics data to improve genomic prediction and interpretability。该研究提出了一种生物学引导的神经网络(biologically-informed neural networks,BINN)框架,用于提升作物基因组预测(GP)与选择(GS)的准确性和可解释性,并在玉米开花期和合成代谢网络中验证了其优越性能。BINN通过将生物学知识嵌入神经网络结构,在小样本、非线性、复杂调控关系的基因组预测任务中展现出显著优势。它不仅提升了预测精度,还提供了可解释的生物学洞察,为作物育种中的基因组选择、候选基因挖掘和基因编辑提供了新的技术路径。

背景与研究意义

  • 背景挑战
    • • 传统G2P(基因型到表型)模型(如GBLUP、RRBLUP)在预测复杂性状时表现有限,尤其在小样本(n < p)条件下。
    • • 虽然整合中间组学数据(如转录组、代谢组)可提升预测力,但这些数据在育种实践中往往不可用,限制了其应用。
  • 研究目标
    • • 提出一种仅在训练阶段使用组学数据推理阶段仅依赖基因型数据的BINN框架。
    • • 通过引入生物学先验知识(如通路结构、eQTL关系)作为网络结构约束,提升模型在稀疏数据下的预测能力和可解释性。

研究方法

1. BINN架构设计

BINN 是一种模块化、稀疏连接的前馈神经网络,其核心思想是将生物学知识(如基因-代谢物-表型关系)编码为网络结构约束:

  • 输入层:SNP基因型数据。
  • 中间层(Omics Layer)
    • • 每个节点代表一个生物学实体(如基因、代谢物)。
    • • 使用**二进制掩码(mask)**限定每个子网络只接收与其相关的输入(如eQTL关联的SNP)。
    • • 每个子网络是一个小型全连接网络,可建模非线性关系(如上位性)。
  • 残差网络:处理未被通路注释的SNP。
  • 整合网络:融合所有子网络输出,预测最终表型。
  • 训练策略
    • • 中间组学数据仅用于构建掩码和弱监督(可选),不用于推理
    • • 支持标准MSE损失和生物学引导的软约束损失(如Pearson相关性)。

图1:生物学引导的神经网络框架将领域知识嵌入以增强基因组预测能力并学习非线性生物学关系。 a) 传统的G2P模型仅使用基因型数据,导致大量功能性知识未被充分利用。BINN通过将经过整理的生物学信息(如RNA-seq(基因表达)、甲基化组学(DNA甲基化)、代谢组学、KEGG通路注释和蛋白质组学)以通路结构、调控先验和稀疏性约束的形式直接嵌入网络结构中,从而在不牺牲实用性的前提下提升预测准确性。 b) 展示了四种代表性场景,说明在分析基因组、转录组和表型组数据时,GWAS、TWAS和BINN各自的适用性。只有在BINN框架下,才允许在一般非线性条件下进行关联分析(前提是训练得到的BINN模型是准确的)。

2. 实验设计

文章在两个案例上验证了BINN的有效性:

案例

数据类型

表型

中间组学

生物学知识来源

案例1:玉米开花时间

真实数据

开花天数(anthesis/silking)

转录组(RNA-seq)

eQTL + Elastic Net选基因

案例2:拟南芥分枝

合成数据

芽萌发时间

代谢物(激素、糖)

ODE模型定义的因果路径

案例1方法细节:

  • • 使用Torres-Rodríguez等提供的玉米TWAS数据(693个自交系,7个亚群)。
  • • 通过ElasticNet筛选与开花时间相关的基因(约1000个),再进行eQTL映射,构建SNP→gene的稀疏连接掩码。
  • • 对比模型:GBLUP、Ridge Regression、BINN(G2B2P)、B2P(仅表达量预测)。

案例2方法细节:

  • • 基于Bertheloot等提出的植物分枝调控ODE模型,合成100,000个基因型-表型-代谢物数据。
  • • 模拟四种代谢物(auxin、sucrose、cytokinin、strigolactone)与表型(芽萌发时间)之间的非线性关系。
  • • 对比模型:Ridge Regression、FCN(全连接网络)、BINN(标准MSE与软约束损失)。

研究结果

1. 玉米开花时间预测(真实数据)

  • 预测精度
    • • BINN在所有亚群中均优于传统G2P模型(GBLUP、Ridge),Spearman相关系数提升高达56%
    • • 在**稀疏数据(训练集仅20%)**下,BINN仍保持稳定性能。
    • • 在留一亚群交叉验证中,BINN对SS、NSS、IDT等主流 heterotic groups 泛化能力强,但对热带、甜玉米等远缘群体性能下降。
  • 可解释性
    • • BINN通过敏感性分析识别出多个已知开花调控基因(如zcn8、zap1、zmm15)。
    • • 还发现一些未被TWAS/GWAS检测到的潜在非线性调控基因,提示其可挖掘隐藏生物学信号。

图2:BINN通过利用基因表达提升基因型到表型建模的预测精度与可解释性。 a) 基于转录组的BINN结构示意图:用SNP和基因表达数据进行特征选择,稀疏化输入与中间层连接。每个基因的SNP通过中间层通路子网络处理,输出再经非线性整合网络预测表型。G2P和B2P均为线性模型。 b) 密歇根州四个亚群抽雄天数预测值与实测值对比。 c) 内布拉斯加吐丝期预测Spearman相关分布。 d) 留一亚群交叉验证:训练时依次剔除一个亚群,测试其在其余六个亚群的吐丝期预测表现。 e) 四个高相关基因的BINN潜变量 vs 实测表达量。 f) 30个代表性基因(高相关15 + 低相关15)的表型扰动总量。 g) BINN选出的100个最重要基因(含zap1、zmm15、zcn14、zcn8)的表型扰动总量阈值图。

2. 拟南芥芽萌发预测(合成数据)

  • 预测精度
    • • 在小样本(n < p)条件下,BINN显著优于Ridge和FCN,MSE降低75%
    • • 随着样本量增加,BINN性能逐渐接近FCN,表明其在稀疏数据下具有更好的偏差-方差权衡
  • 软约束损失的效果
    • • 即使只有10%的代谢物标签,BINN-soft仍能达到与全标签BINN相当的预测精度。
    • • 表明极少量中间数据即可有效引导模型学习潜在生物学机制
  • 可解释性
    • • 标准BINN(无软约束)中,蔗糖(sucrose) latent variable 与真实值相关性最高(r ≈ 0.8),尽管未直接监督。
    • • 敏感性分析表明,蔗糖对表型影响最大,与已知生物学机制一致,验证BINN能自发学习关键生物学变量

图3:在稀疏数据(n < p)条件下,BINN显著优于基线模型。 a) 芽分枝网络BINN结构示意图:基因输入经四个生物学注释通路子网络(生长素A、蔗糖S、细胞分裂素CK、独脚金内酯SL)处理后,由整合器预测芽萌发时间。 b) 测试集MSE对比:RR、FCN、BINN-MSE、BINN-soft(100%、50%、10%中间标签)在500–20,000样本下的表现;n=1,600虚线划分稀疏/充足数据区。 c) 预测-实测表型散点:四个训练规模下RR(紫圆)、FCN(黑三角)、BINN(红方)的Pearson r。 d) 中间性状潜变量预测 vs 真实值:BINN-MSE(蓝)与BINN-soft(红)的散点及r。 e) 各中间性状扰动后的表型变化总量。

讨论与展望

  • BINN优势
    • 实用性强:训练阶段利用组学数据,推理阶段仅需基因型,适配现有GS流程。
    • 预测精度高:在小样本、复杂非线性关系中表现优于传统线性模型。
    • 可解释性好:通过敏感性分析可识别关键基因/代谢物,辅助功能基因组研究和基因编辑靶点选择。
  • 局限性与挑战
    • • 网络稀疏度需精细调节,过多或过少都会降低性能。
    • • 组学数据质量(如批次效应、组织特异性)会影响掩码构建。
    • • 当前仅测试了开花时间等简单性状,未来需拓展至更复杂的产量、抗逆等性状。
  • 未来方向
    • • 整合更多组学层(如蛋白组、表观组)与环境信息(如气候数据)。
    • • 探索不同拓扑结构(如并行、堆叠、交错BINN)以适应不同生物学背景。
    • • 结合基因组语言模型(gLMs)等功能注释工具,提升未注释基因的预测与建模能力。

后记

像拜耳这样的育种大厂也一直在做这种基础性研究,说明AI育种大势所趋,不容小觑。

如果童鞋们要系统入门基因组选择,近期中国农科院首席团队开设了一门基于机器学习和深度学习算法的全基因组选择与智能设计育种课程。详见:全基因组选择&智能设计育种全面升级,通过本文报名的朋友(扫以下二维码),课程结束后可联系小编免费加入“生物信息与育种”知识星球(价值199元),内含大量智能育种相关资源,欢迎一起交流学习。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/947006.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何利用AI挖掘基因?一个很好的水稻例子

分享一篇近期由海南大学王华锋教授团队发表在International Journal of Biological Macromolecules(IF=8.5,JCR1)上的文章:Machine learning and functional validation identify OsRAV11/12 as negative regulato…

AI如何影响生物信息学的职业生涯?

分享一篇2025年10月13日来自Nature的职业专栏文章,题为《“我是否多余了?”——人工智能如何改变我在生物信息学的职业生涯》,作者是Lei Zhu。文章探讨了人工智能工具在生物信息学领域的崛起如何重塑研究者的角色,…

一个通过深度学习整合多组学功能注释的基因组预测模型DeepAnnotation

分享一篇2025年8月28日由中国农业科学院深圳农业基因组研究所刘毓文课题组在《GigaScience》上发表题为“DeepAnnotation: A novel interpretable deep learning–based genomic selection model that integrates comp…

如何整合多组学数据并利用机器学习算法进行基因组预测?

分享一篇中国农科院深圳基因组所周永锋老师团队发表在JGG上的文章:Integrative multi-omics and genomic prediction reveal genetic basis of early salt tolerance in alfalfa,研究了紫花苜蓿(Medicago sativa L.…

DPCformer:一种用于作物基因组预测的可解释深度学习模型

分享一篇2025年10月9日由华中农业大学国家作物遗传改良重点实验室在arxiv预印本上发表的文章:DPCformer: An Interpretable Deep Learning Model for Genomic Prediction in Crops。该研究开发了一种名为DPCformer的新…

Kubernetes端口列表与安全分析

本文详细列出了Kubernetes集群中常见的开放端口及其功能,包括10250和10255等kubelet端口的安全性分析,以及etcd、Dashboard等组件的端口配置,对容器安全评估具有重要参考价值。Kubernetes: 端口列表 其他Kubernetes…

《程序员修炼之道:从小工到专家》笔记2

1持续学习的习惯: 将技术知识视为一种会“腐烂”的商品,必须持续投入才能保值。 每年至少学习一门新语言,每季度阅读一本技术书籍,并坚持阅读非技术书籍以拓宽视野。 2知识资产的投资: 定期投资:像金融投资一样,…

android 基于okhttp的socket封装 - 实践

android 基于okhttp的socket封装 - 实践pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Mo…

2025 年 10 月门窗十大品牌榜单揭晓,专业制造与耐用售后口碑之选

2025 年 10 月门窗十大品牌榜单由中国建筑金属结构协会、全国工商联家具装饰业商会联合发布。此次评选聚焦消费者对门窗长期耐用性与售后保障的核心需求,突破传统单一性能评选局限,以《铝合金门窗》(GB/T 8478-2008…

2025 年 10 月门窗十大品牌榜单揭晓,专业制造与安全定制口碑之选

2025 年 10 月门窗十大品牌榜单由中国建筑金属结构协会、全国工商联家具装饰业商会联合发布。此次评选聚焦消费者对门窗安全防护与个性化定制的核心需求,突破传统单一性能评选局限,以《铝合金门窗》(GB/T 8478-2008…

线段树理论

很短的东西假设我们此时线段树维护的信息集合为 \(D\),标记集合为 \(T\),而对于一颗线段树,我们需要维护的操作无非就是:区间合并:把两个相邻区间 \([l_1,r_1],[l_2,r_2]\) 的序列信息合并起来作为大区间 \([l_1,…

[ICML2023]CLIPood Generalizing CLIP to Out-of-Distributions

Background OOD泛化任务(Out-of-Distribution (OOD) Generalization)包含两类子任务:域偏移(domain shift):指训练集和测试集分布不同,例如训练集是写实的,测试集是素描。这类问题的解决方法包括,主要是集中在…

最短路学习笔记

同余最短路 P3403 跳楼机 题意: 你可以采用以下四种方式移动:向上移动 \(x\) 层; 向上移动 \(y\) 层; 向上移动 \(z\) 层; 回到第一层。现在你在第一层,求你可以去到的楼层数

语文_阅读_The power of curiosity in science_待读

The power of curiosity in science 科学中的好奇心力量 Curiosity is one of the most important qualities a scientist can have. 好奇心是科学家最重要的品质之一。 It drives them to ask questions, explore the…

大学课堂“走神危机”,认真听讲能否破局?

作为一名大二的学生,我原本以为在大学课堂,偶尔走神、放松一下无伤大雅,船到桥头自然直,期末考试也能侥幸通过。然而,读完这篇文章后,我惊觉自己正深陷“走神危机”,而认真听讲或许才是破局的关键。 数据科学与…

【数据分析】基于大内容的葡萄酒品质内容可视化分析体系 | 大数据毕设实战项目 选题推荐 文档指导+ppt+运行部署 Hadoop+SPark+java

【数据分析】基于大内容的葡萄酒品质内容可视化分析体系 | 大数据毕设实战项目 选题推荐 文档指导+ppt+运行部署 Hadoop+SPark+javapre { white-space: pre !important; word-wrap: normal !important; overflow-x: au…

无符号整型左移33位

无符号整型左移33位这几天遇到一个问题时关于移位操作的,无符号整数左移33位的时候是什么现象。首先使用了AI 问答来照看问题的答案对于无符号整数左移33位的现象,实际上只会移动1位而不是33位,这是因为编译器会对移…

跨被动为主动:认真听讲,坚持实践

在读完第一篇<<大学生上课为什么一定要认真听讲?>>和后两篇关于他们关于做中学的分享之后,我理解到真正的学习,不能仅仅是被动地去学习,既需要专注的输入,也需要持续的实践与反馈。 对于我们大学生的学…

深入理解:Spring Environment

目录背景和价值参考资料 背景和价值 参考资料 https://www.cnblogs.com/johnnyzen/p/18455113#_label0

以专注之姿,赴求知之约

读完Scalers《大学生上课为什么一定要认真听讲》,如晨钟叩响混沌的心门,惊醒了我过往对课堂的轻慢。曾几何时,我也将大学的讲堂视作可有可无的背景板,刷手机、赶作业成了默认动作。看完这篇文章才惊觉自己的浅薄。…