分享一篇2025年8月28日由中国农业科学院深圳农业基因组研究所刘毓文课题组在《GigaScience》上发表题为“DeepAnnotation: A novel interpretable deep learning–based genomic selection model that integrates comprehensive functional annotations”的研究论文。该研究开发了一款一种名为 DeepAnnotation 的新型可解释深度学习方法,用于整合多组学功能注释进行基因组选择(GS),以提高农业动植物复杂性状预测的准确性和生物学可解释性。

背景与意义
- • 基因组选择(GS) 是现代动植物育种的核心技术,通过全基因组标记预测个体的遗传价值,显著加快了育种进程。
- • 随着多组学数据(如转录组、表观基因组)的积累,将这些生物学先验信息整合进预测模型成为提高预测准确性的关键。
- • 尽管已有模型(如BLUP、BayesR等)广泛应用,但它们在处理非加性效应、非线性关系和整合多组学信息方面仍存在局限。
- • 深度学习(DL)具备强大的非线性建模能力,但其“黑箱”特性限制了其在生物学机制解析中的应用。
方法
1. DeepAnnotation模型构建
- • 核心思想:模拟从基因型到表型的生物信息流(DNA → 表观调控 → 转录 → 功能模块 → 表型),构建多层深度神经网络。
- • 模型结构:
- • 输入层:全基因组SNP(包括编码和非编码区)。
- • 功能注释层:整合DeepSEA预测的染色质可及性、RNAfold预测的RNA二级结构变化、easyMF预测基因功能和调控模块(metaterms)。
- • 隐藏层:提取高阶特征。
- • 输出层:预测表型值。

2. 功能注释构建
- • 使用RNAfold、DeepSEA、easyMF等工具分别预测编码/非编码SNP的生物学效应。
- • 构建多层次注释:SNP → cis调控元件 → 基因 → 功能模块(metaterms)。
3. 模型训练与评估
- • 使用1700头杜洛克猪的全基因组数据(1163万SNP)训练模型,240头独立个体验证。
- • 与7种主流模型(rrBLUP、BLUP、BayesR、BayesRC、MBLUP、LightGBM、KAML)比较预测准确性。
- • 采用5折交叉验证、Pearson相关系数(PCC)、相对效率(RE)等指标评估性能。
主要结果
1. 预测准确性显著提升
- • DeepAnnotation在预测猪的三个重要经济性状(瘦肉率LMP、背膘厚BF、眼肌深LMD)方面,PCC提升6.4%~120.0%。
- • 在挑选排名前1%~10%的个体时,相对效率显著优于其他模型(P < 0.05)。


2. 生物学可解释性
- • 通过后向追踪策略,识别出与LMP显著相关的功能模块(metaterm 8),其富集于“DNA甲基化依赖的异染色质组装”通路。
- • 精确定位两个非编码SNP(chr10:23833431 和 chr4:95182500),分别调控KDM5B和UBE2Q1基因表达,参与骨骼肌发育。
- • 双荧光素酶报告实验验证这两个SNP具有增强子活性,且不同等位基因间活性差异显著(P < 0.001)。

3. 模型鲁棒性与计算效率
- • 在独立测试集上表现稳定,训练时间与rrBLUP等模型相当。
- • 整合功能注释后,模型对显著SNP的富集能力和解释遗传力(heritability)显著提升。


讨论与展望
优势
- • 首次将多组学功能注释系统整合进可解释深度学习框架,用于农业物种基因组选择。
- • 兼顾预测准确性与生物学机制解析,突破传统“黑箱”模型局限。
- • 提供开源工具(GitHub + Docker),便于推广应用于其他物种和性状。
局限性
- • 训练样本量相对较小(1700),可能影响模型泛化能力。
- • 未考虑连锁不平衡(LD)对因果变异识别的影响。
- • 当前反向追踪策略可能遗漏部分重要位点。
未来方向
- • 扩大训练样本和外部验证数据集。
- • 引入LD调整和基因敲除实验验证因果性。
- • 优化反向追踪算法,提升关键SNP/基因识别能力。
后记
Github(https://github.com/mawenlong2016/DeepAnnotation)上用法比较详细,感兴趣的朋友可以去试试,看看在植物上效果如何?
如果童鞋们要系统入门基因组选择,近期中国农科院首席团队开设了一门理论与实践课程,详见:全基因组选择&智能设计育种全面升级,通过本文报名的朋友(扫以下二维码),课程结束后可联系小编免费加入“生物信息与育种”知识星球(价值199元),内含大量智能育种相关资源,欢迎一起交流学习。

