基因组选择(GS)和表型选择(PS)被广泛用于加速植物育种。然而,在处理处理复杂性状时,这两种选择方法的准确性、稳健性和可转移性尚未得到充分探索。近日,南京农业大学丁艳锋团队在Plant Communications发表题为GPS: Harnessing data fusion strategies to improve the accuracy of machine learning-based genomic and phenotypic selection的研究论文。在这项研究中,作者通过对比三种不同的融合策略(数据融合、特征融合和结果融合)整合基因组和表型数据的预测性能,引入了一种多源数据融合框架(Genomic and Phenotypic Selection,GPS)。该框架突破了性状预测的预测准确性、稳健性和可转移性的界限,为应对气候变化下的粮食安全挑战提供关键技术支撑。

研究方法
研究选取了五类机器学习模型(RF、Lasso、SVM、XGBoost和LightGBM)和一种前沿深度学习方法(DNNGP),以及四种基因组选择模型(GBLUP、BayesB、MTGBLUP和MAK)作为基准,设计了三种融合策略:数据融合、特征融合和结果融合。此外,本研究创新性地提出了一种基于遗传力和表型相关性的快速权重分配方法FastW,用于优化 GS 和表型选择 PS 的预测结果融合。三种融合策略基于玉米、大豆、水稻和小麦的大规模数据集,随机选取3个农艺性状进行预测,并按8:1:1划分训练集、验证集(用于DL模型)和测试集。模型精度通过预测值与实测值的Pearson相关系数评估。最后,选出最优融合策略并对其进行敏感性分析(样本量、SNP密度、表型数量、性状相关度对融合策略的影响)和迁移性分析(融合策略在跨年份、跨地点、跨环境预测中的有效性)。

图1 三种融合策略的技术路线图。
(A)数据融合。(B)特征融合。(C)结果融合。
主要结果
(1)数据融合比特征融合和结果融合策略取得了最佳的精度。与最佳 GS 模型 (LightGBM) 相比,性能最佳的数据融合模型 (Lasso_D) 将选择准确率提高了 53.4%,与最佳 PS 模型 (Lasso) 相比提高了 18.7%;与多性状模型相比准确率也大幅提升,比MAK模型平均准确率提升44.4%,比MTGBLUP模型平均准确率提升36.5%

图2 不同融合策略的准确性比较。
(A) 三种融合策略的预测精度比较。(B)数据融合策略与GS和PS模型预测精度的比较。
(2) 在Wheat2000数据集上的敏感性测试表明:当样本量从1800降至200时,Lasso_D对三个目标性状(TW、GP、GH)的预测准确率下降26.5%-32.4%。但Lasso_D在小样本(n=200)时,对TW的预测准确率比其他模型高3.5%-50.9%。同时,Lasso_D表现出卓越的稳健性,提高SNP筛选严格度(p值从0.1降至1e-5)对其准确率无显著。此外,该模型的准确率随着辅助性状数量及其与目标性状的相关性强度的提高而提高,进一步凸显了其对复杂性状预测的适应性。

图3 不同方案下的模型敏感性分析。
(A)样本量对预测精度的影响。(B)SNP质量对预测准确性的影响。(C)表型数量对预测准确性的影响。(D)目标性状和辅助性状之间的相关性对预测准确性的影响。
(3)数据融合模型通过创新的“排除测试环境的多环境训练策略”(ETE),在保持预测精度的同时显著提升了模型泛化能力。在单一维度环境变化(跨年份、跨地点)预测中,ETE策略使准确率仅波动1.2-2.0%;在多维度环境变化(年份+地点组合)预测中,ETE策略整合了更全面的环境数据,模型精度损失降至 0.3%;同样,在极端环境差异中的准确率仍保持<5%的精度波动。

图4 不同环境下的模型预测精度。
(A) 1260份大豆样品在不同环境中的含油量分布。(B)大豆数据集中七个性状的皮尔逊相关系数。(C)跨年份含油率预测结果。(D) 跨地点含油率预测结果。(E)跨环境含油率预测结果。
(4)FastW为多源数据融合提供了高效、可靠的权重分配解决方案,对提高复杂性状预测的效率和准确性具有重要的实践价值。FastW通过直接基于遗传力和表型相关性的公式化计算,效率相比于DEoptim显著提升(计算时间约为DEoptim三分之一),完全避免了传统DEoptim算法的迭代优化过程;其次,FastW准确性得到充分验证,在玉米、大豆、水稻和小麦四大作物数据集中的测试表明,FastW与DEoptim的权重分配结果高度一致,相关系数达到0.77-0.99;而且,其适用范围广泛,尤其适用于大规模基因组预测场景。
展望
本研究通过开发GPS数据融合框架,系统性地整合基因组学与表型学数据,显著提升了机器学习在作物育种中的预测准确性、稳健性和跨环境迁移性,为解决全球粮食安全挑战提供了重要的技术支撑。该研究不仅验证了数据融合策略在复杂性状预测中的优越性,还揭示了样本规模、SNP密度、表型相关性等关键影响因素对模型性能的调控机制,这些发现为优化育种数据采集和分析策略提供了理论依据。特别是在小样本条件下,Lasso_D模型仍能保持高精度预测,为资源有限的育种项目提供了实用工具。此外,多环境数据融合策略可将跨环境预测精度损失控制在0.3%以内,突破了传统GS模型受基因型-环境互作限制的瓶颈,为培育广适应性品种奠定了基础。
原文链接:
https://doi.org/10.1016/j.xplc.2025.101416
添加小编微信,拉您进入生信AI育种群交流。
