鲁东大学提出可解释的自适应集成机器学习全基因组选择算法用于小麦产量性状关键SNPs筛选

news/2025/10/25 21:08:34/文章来源:https://www.cnblogs.com/miyuanbiotech/p/19165979

研究背景

全基因组选择(genomic selection, GS)是现代分子育种中的一项重要技术,作为一种强大的机器学习GS方法,堆叠集成学习(stacking ensemble learning, SEL)有效地融合了不同模型(基学习器)的优势,以精确描绘表型与基因型之间的复杂关系。然而,在SEL的关键步骤中,目前缺乏一种有效且统一的基学习器选择框架,而且仅根据经验选择固定的基学习器并不总是合理的。所以,有必要开发一种能够根据数据本身的特征从大量候选模型中自适应选择高性能基学习器,从而构建高效SEL模型,并对模型可解释性进行探索。

论文概要

202587日,鲁东大学麦类分子育种创新团队Theoretical and Applied Genetics发表了题为AdaptiveGS: an explainable genomic selection framework based on adaptive stacking ensemble machine learning的研究论文。该研究开发了一种自适应且可解释的数据驱动型基学习器选择策略——adaptiveGS,用于为堆叠GS框架预筛选最优的基学习器,提高小麦产量性状基因组估计育种值(Genomic estimated breeding valueGEBV)预测准确性。进一步引入SHAP (the SHapley Additive explanations)方法对adaptiveGS的结果进行解释,可识别与小麦产量性状高度相关的显著单核苷酸多态性(SNPs),即主效应,并阐释SNPs间的交互效应。该研究不仅丰富了小麦产量性状全基因组选择算法,也有望在粮食增产、育种芯片设计及可持续农业发展等方面发挥作用。

主要研究结果

1.PR指数基学习器选择策略有效提升堆叠集成机器学习预测能力

本文利用皮尔逊相关系数(PCC)和归一化均方根误差(NRMSE)构建PR指数,通过PR指数从7个(或自定义)机器学习模型中自动筛选出排名前3的模型作为基学习器(图2),取代以往研究中事先根据经验直接指定基学习器的方式,从而使得算法能够根据数据自身特征自适应筛选高性能基学习器,进而组建高效堆叠集成算法(图1),提升其预测能力。

2.基于PR指数的adaptiveGS框架显著提升动植物育种GEBVs预测精度

基于PR指数构建了adaptiveGS框架(图1),在包含小麦在内的4个动植物物种21个性状上,将adaptiveGS与其他13GS算法进行了比较。结果表明,adaptiveGS21个性状中的大多数上优于这13个模型,平均预测准确率(PCC)达到0.703,平均提高了14.4%(图4),展现出优异的预测准确性和稳健性。

3.基于SHAP技术的adaptiveGS框架有助于解释小麦产量性状关键SNPs

利用SHAP事后解释技术对adaptiveGS进行解释,并识别影响小麦产量性状变异的显著SNPs以及SNPs之间潜在的相互作用效应。结果表明,本研究提出的adaptiveGS算法有助于识别可能影响小麦产量性状的潜在显著SNP位点,并可使用SHAP方法直观展示每个SNP对小麦产量性状GEBV预测的贡献(图6,图7,图8)以及SNPs之间的潜在相互作用效应(图9)。

全文总结

在本研究中,我们开发了一种自适应且统一的堆叠集成机器学习全基因组选择框架,并设计了一种模型解释策略,以识别小麦产量性状的候选显著SNPs。针对基学习器选择中存在的不确定性问题,引入了基于皮尔逊相关系数(PCC)和归一化均方根误差(NRMSE)的PR指数,自动筛选最适配的基学习器构建堆叠基因组选择模型,该过程由输入的训练数据驱动,而非依赖用户经验,有助于为每一组表型和基因型数据“量身定制”精准的堆叠模型。将adaptiveGS与包括经典GS模型、机器学习和深度学习在内的13种模型的预测精度比较,发现adaptiveGS在大多数场景中优于所有13种模型。最后,通过SHAP值对adaptiveGS模型进行了解释,以提供GS研究中与特定性状相关的重要SNPs信息。本研究在有效提升GS模型小麦产量性状GEBV预测精度的同时,可较好地阐释影响小麦产量性状的若干关键SNPs,并为提升小麦产量、智能育种芯片设计以及推广到其他动植物育种领域等提供了理论依据和技术支撑。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/946425.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

台球厅收银台押金原路退回系统押金预授权—东方仙盟 - 详解

台球厅收银台押金原路退回系统押金预授权—东方仙盟 - 详解pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consol…

数论专题小记

我的数论以前一只因为对数字的恐惧而搁置,准备这几天补回来 /kk。 狄利克雷卷积&莫比乌斯反演我们定义 狄利克雷卷积 这种运算是把两个数轮函数 \(f,g\) 卷成另一个函数 \(t\),其中 \(t\) 满足: \(\ \ \ \ \ \ …

ReactUse 与ahook对比 - 实践

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

机械臂和相机的9点标定原理

9点标定到底怎么工作的? 这个问题困惑了我很久,虽然想海康VisionMaster 和Halcon 这种软件都提供了很好用的工件,但是最好懂原理,这样才不仅能做项目,还能做好项目。 最近好好研究了一下,感觉是搞清楚了,就记录…

遗传改良中的核心技术:交配设计

分享一则报告,系统总结了植物育种中常用的交配设计(Mating Designs)方法。定义与目的定义:交配设计是指为产生后代而在植物群体间有计划的杂交方案。目的:理解性状或行为的遗传控制机制;为作物品种开发提供基础群…

语言是火,视觉是光:论两种智能信号的宿命与人机交互的未来 - 教程

语言是火,视觉是光:论两种智能信号的宿命与人机交互的未来 - 教程pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: &quo…

书籍推荐 | 《数量遗传学》(王建康)

数量遗传学是智能育种必学课程,这里推荐一本由中国农科院作物科学研究所王建康老师主编的教材。本书系统介绍群体遗传与数量遗传的基本理论及其在动植物育种中的应用。全书分群体遗传、数量遗传、育种应用和基因定位四…

Plant Com | 一种新的多源数据(基因组、表型和跨环境)融合的基因组预测框架-GPS

基因组选择(GS)和表型选择(PS)被广泛用于加速植物育种。然而,在处理处理复杂性状时,这两种选择方法的准确性、稳健性和可转移性尚未得到充分探索。近日,南京农业大学丁艳锋团队在Plant Communications发表题为G…

分享二个实用正则

正则表达式是一种用于匹配和操作文本的强大工具。它由一系列字符和特殊字符组成,用于描述要匹配的文本模式。最近看到二个我觉得很实用的正则使用方式,一起来看看吧前言 正则表达式(Regular Expression,简称regex或…

国际水稻研究所推出 AI 驱动的全球杂交水稻育种与亲本筛选数字平台

菲律宾洛斯巴诺斯(2025 年 2 月 26 日)——国际水稻研究所(IRRI)正式发布全新 AI 驱动数字平台,可显著加速全球杂交水稻育种与亲本筛选工作,通过推广高产且气候智能型杂交水稻,为粮食安全与可持续农业作出贡献。…

《程序员修炼之道:从小工到专家》笔记1

1核心身份认同:本书开篇即定义了“注重实效的程序员”的形象。我们不仅是代码的搬运工,更是项目的看护人和利益的守护者。我们勇于承担责任,而不是找借口。 2两大核心哲学: “我的源码让猫给吃了”:这是一种反讽。…

深入解析:UNIX下C语言编程与实践3-Vi 编辑器从入门到精通:快捷键使用与高效编辑技巧

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

科普报告:分子标记辅助选择(MAS)育种

分享一则由埃及农业基因工程研究所(AGERI)的Dina El-Khishin教授撰写《Marker Assisted Selection(MAS,标记辅助选择)》的报告,系统介绍了分子标记在植物育种中的应用,特别是如何利用MAS技术应对气候变化背景下…

实用指南:【ansible/K8s】K8s的自动化部署源码分享

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

CF1896F

题目大意: 有一个长度为 \(2n\) 的 \(01\) 序列 \(a\),你可以对他进行一下操作(不超过10步)。 输出一个长度为 \(2n\) 的括号匹配字符串 \(s\),假设每个左括号 \(i\) 与右括号 \(p_{i}\) 匹配,那么将 \(a\) 中 \…

作物遗传育种中的多亲本互交群体(MAGIC)

MAGIC群体简介 植物遗传研究的重要优势是遗传群体构建的便利。传统上用于遗传作图的主要有基于连锁分析的双亲群体和基于关联分析的自然群体和多亲群体。但由于双亲群体的遗传背景狭窄,可定位的 QTL 有限,自然群体存…

联邦大型语言模型、多智能体大型语言模型是什么? - 详解

联邦大型语言模型、多智能体大型语言模型是什么? - 详解pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas…

一个用于自动化基因表达分析的多智能体框架GenoMAS

2025年7月,伊利诺伊大学香槟分校和加州大学圣地亚哥分校的研究团队在预印本平台arXiv发表了题为GenoMAS: A Multi-Agent Framework for Scientific Discovery via Code-Driven Gene Expression Analysis的论文。该研究…

50年的玉米育种改良,是如何应对气候变化的?

分享一篇来自布宜诺斯艾利斯大学今年发表的综述文章《50 years of breeding to improve yield: how maize stands up to climate change》,该文回顾了过去50年玉米育种在提高产量方面的成就,分析了这些改良如何帮助玉…

刷题日记—洛谷数组题单—幻方

幻方如图 题目要求输入n,构建一个nn的幻方,很显然是一个二维数组,但是要怎么插入呢?插入必然要用到循环。是for还是while? 由题目条件可知,幻方的数值是从1——nn,并且第一个数的位置已经确定,而第X个数是由X—…