分享一篇2025年10月9日由华中农业大学国家作物遗传改良重点实验室在arxiv预印本上发表的文章:DPCformer: An Interpretable Deep Learning Model for Genomic Prediction in Crops。该研究开发了一种名为DPCformer的新型深度学习模型,该模型融合卷积神经网络与自注意力机制,能够高效预测作物表型。在玉米、棉花、番茄等五大作物共13个性状上的测试表明,DPCformer在预测精度、小样本适应性和多倍体基因组处理方面均优于现有方法,为精准育种提供了强有力的计算工具。

背景与意义
- • 全球挑战:随着全球人口预计到2050年达到90亿,粮食安全成为全球农业部门面临的严峻挑战。
- • 作物育种重要性:提高作物育种效率和精确度对于保障粮食安全至关重要。
- • 基因组选择(GS):作为一种先进的育种方法,GS利用全基因组信息预测作物表型,加速育种过程。但传统GS方法在处理大规模数据集、非线性遗传效应和复杂性状结构时存在局限性,且过度依赖环境数据。

图1:(A)DPCformer在作物基因组预测中基于SNPs的工作流程。(B)现有方法的局限性。
方法
- • DPCformer模型:提出了一种结合卷积神经网络(CNN)和自注意力机制的新型深度学习模型,用于从SNP数据中预测作物表型。
- • 数据集:
- • 玉米:https://ftp.cngb.org/pub/CNSA/data3/CNP0001565/zeamap/99 MaizegoResources/01_CUBIC related/
- • 番茄:http://solomics.agis.org.cn/tomato/ftp/
- • 水稻:https://ricevarmap.ncpgr.cn/
- • 棉花:https://iagr.genomics.cn/CropGS/
- • 鹰嘴豆:https://iagr.genomics.cn/CropGS/
- • 特征工程策略:包括8维独热编码的SNP数据、按染色体位置排序和通过PMF算法进行特征选择,以增强模型的预测准确性和稳定性。
- • 数据处理流程:
- • 8维SNP编码:采用8维独热编码方案,保持等位基因间的顺序和空间关系。
- • 染色体分割:根据MAP文件中的标识符和物理坐标,将编码的SNP序列分割成染色体特定的子序列。
- • 基于MIC的特征选择:使用最大信息系数(MIC)从每个染色体中选择前1000个最信息丰富的SNP位点。
- • 按物理位置排序:根据MAP文件中的物理坐标重新排序选定的SNP,以保持其在染色体上的物理排列。
- • 统一长度填充:通过零填充将每个染色体的SNP序列标准化为统一长度1000,以适应网络的固定输入维度。
- • 四倍体棉花的特殊处理:为模拟四倍体棉花A和D亚基因组之间的复杂相互作用,实施了专门的数据处理流程。

图2:Cropformer 模型主要由一个 CNN 层和一个多头自注意力层构成。CNN 层用于捕捉 SNP 的局部信号,而多头自注意力机制使模型更关注重要的 SNP。
结果
- • 模型性能评估:DPCformer在五个不同数据集的13个性状上表现出色,预测精度显著超过现有方法。
- • 玉米数据集:在河南地区,DPCformer在三个性状(抽丝天数DTT、株高PH和穗重EW)的预测精度分别比第二好的方法提高了2.92%、0.74%和1.10%。在北京地区,这些精度分别提高了1.48%、2.40%和1.01%。
- • 棉花数据集:在四个纤维品质性状(纤维伸长FE、纤维长度FL、纤维强度FS和纤维微观结构FM)的预测精度上,DPCformer比基线模型提高了高达8.37%。
- • 小样本番茄数据集:在关键性状上,DPCformer的皮尔逊相关系数(PCC)比基线模型提高了高达57.35%。
- • 鹰嘴豆数据集:在单株产量性状上,DPCformer的PCC比类似模型提高了高达16.62%。
- • 模型消融实验:通过系统地包含或排除三个关键组件(8维SNP编码、基于物理位置的排序和PMF),发现8维SNP编码模块对性能提升最为显著,单独使用时可提高PCC约8.36%。所有三个组件的完整集成实现了最佳性能(PCC=0.916),比最强的双模块配置提高了2.97%,比基线提高了9.36%。
- • 模型可解释性分析:使用SHAP值对模型预测进行解释,识别出与玉米株高和穗重性状相关的几个候选基因,如Zm00001d050247(编码WRKY转录因子)和Zm00001d015381(编码MADS-box转录因子ZmMADS17),这些基因与植物高度和花的器官发育相关,从而影响玉米穗重。

图3:基于五种不同模型在五个数据集上的方法预测准确性。


图4:基于玉米株高(PH)性状筛选出的前20个关键基因。

图5:基于玉米穗重(EW)性状计算SHAP值后获得的前20个显著SNP。
讨论
- • DPCformer的优势:与现有基因组选择方法相比,DPCformer在预测精度、小样本预测能力、多倍体基因组处理和可解释性方面表现出色。
- • 研究局限性:尽管DPCformer在处理小样本数据集方面表现出色,但样本大小的固有限制仍然限制了深度学习应用的全面潜力。此外,同源染色体的配对策略仅基于物理坐标,没有整合功能基因组数据来阐明更复杂的协同效应。
- • 未来研究方向:将通过整合多模态功能基因组数据和优化自注意力机制的计算效率来解决这些局限性。在处理异源染色体时,通过开发层次化注意力机制来区分亚基因组(A/D)和同源染色体对的贡献程度,以实现更好的预测性能。
后记
DPCformer 框架的实现代码已公开,访问地址为:https://anonymous.4open.science/r/DPCformer-0B5C,感兴趣的同学可以去试试。这几年随着AI,尤其是大模型的兴起,作物育种也迎来了新的机遇,从传统的经典机器学习到深度学习,学科交叉性只会越来越强,对人的要求也会越来越高,不说各方面都要精通,至少要能理解,才能对话和合作。
如果你想系统入门基因组选择,掌握GS从统计模型到深度学习方法,从理论到实操,小编推荐近期中国农科院首席团队开设的GS课程,详见:全基因组选择&智能设计育种全面升级,通过本文报名的朋友(扫以下二维码),课程结束后可联系小编免费加入“生物信息与育种”知识星球(价值199元),内含大量AI育种相关资源,欢迎一起交流学习。

