一个用于从头发现植物转录因子结合位点的可解释生成式深度学习系统

news/2025/10/26 20:20:26/文章来源:https://www.cnblogs.com/miyuanbiotech/p/19167305

分享一篇由阿三团队近期发表在Plant Commun上的文章:PTF-Vāc: An explainable and generative deep co-learning encoders-decoders system) for ab-initio discovery of plant transcription factor binding sites。该研究开发了一个名为 PTF-Vāc 的新型人工智能系统,用于植物中转录因子结合位点(TFBS)的从头发现(ab-initio discovery)

PTF-Vāc(梵语“Vāc”意为“言说”,寓意“道出”结合位点)系统基于一个通用的“转录因子-DNA互作”模型,通过深度协同学习转录因子的三维结构变异和其结合位点的序列变异,成功地将TFBS的发现过程与预定义的基序模型完全解耦。PTF-Vāc不仅能够从头、精准地预测任意物种中任意转录因子的结合位点,甚至能区分同一基因不同剪接变体的结合偏好,其性能在全面的基准测试中远超现有先进算法。

背景与意义

  • 背景
    • • 植物中转录因子(TF)与DNA结合位点(TFBS)具有高度的物种间变异性和上下文依赖性
    • • 现有工具大多依赖于预定义的TF特异性模型或实验数据(如ChIP-seq),难以应对跨物种、跨条件的TFBS预测。
    • • 植物基因组复杂、重复序列多,TFBS的识别更具挑战性。
  • 研究意义
    • • 提出一个通用、可解释、生成式深度学习系统PTF-Vāc,摆脱对实验数据和TF特异性模型的依赖。
    • • 可用于新物种基因组注释、剪接变体分析、全基因组TFBS预测等,推动植物调控研究。

方法概述

  • 核心模型
    • PTF-Vāc 基于前期开发的 PTFSpot(一个TF结构与其结合区域协同学习的通用模型)。
    • • 使用Transformer编码器-解码器结构结合DenseNet处理TF的3D结构信息,实现序列到序列的生成式学习。
    • • 输入:DNA序列(150–162 bp)+ TF的AlphaFold2预测结构。
    • • 输出:精确的TFBS序列(9–12 bp)及其motif。
  • 训练数据
    • • 使用拟南芥(Arabidopsis thaliana)中40个TF家族的48,000个结合区域。
    • • 采用五聚体至七聚体(pentamer–heptamer)词汇表示DNA序列,提升模型表达能力。
  • 可解释性
    • • 引入 Grad-CAM 对模型进行可视化解释,识别影响TFBS预测的关键序列片段和结构区域。

主要结果

1. 模型性能

  • • 在测试集上准确率达到 92.76%,优化后提升至 93.2%
  • • 去除TF结构信息后准确率下降至 73.9%,证明结构信息对预测至关重要。

2. 实验验证

  • • 与JASPAR数据库中实验验证的motif进行比对:
    • • 所有36个TF的预测motif均显著匹配实验结果(TOMTOM p < 0.01)。
    • • 其中13个TF的motif匹配度达 100%
  • • 结合位点覆盖实验数据的比例为 83.26%–100%

3. 分子对接验证

  • • 对5个TF进行分子对接分析,PTF-Vāc预测的TFBS与实验位点的结合能几乎一致,甚至更优,验证其生物学合理性。

4. 跨物种应用

  • • 在玉米(Zea mays)和大豆(Glycine max)中测试,PTF-Vāc仍能准确识别TFBS,表现出良好的跨物种泛化能力

5. 剪接变体分析

  • • 成功识别拟南芥ARF8两个剪接变体的不同结合位点,揭示其结构差异导致结合特异性变化。

6. 全基因组应用

  • • 在茶树(Camellia sinensis)全基因组中预测BES1转录因子的靶基因:
    • • 预测1,878个靶基因,其中519个与ChIP-seq结果一致(一致性达98%)。
    • • 功能富集分析显示其参与干旱、盐胁迫响应通路,符合已知生物学功能。

结论与展望

  • PTF-Vāc 是一个无需实验数据、无需预定义motif、可解释、跨物种通用的TFBS发现工具。
  • • 它突破了传统方法对实验数据和TF特异性模型的依赖,适用于:
    • • 新物种基因组注释
    • • 剪接变体调控差异研究
    • • 全基因组TFBS预测
  • • 提供了在线服务器(https://scbb.ihbt.res.in/PTF-Vac/)和**开源代码**(https://gitlab.com/scbblab/ptfvac),便于科研社区使用与扩展。
  • • 当前仅适用于植物,但方法可拓展至动物等其他生物领域。

局限性与未来方向

  • • 需要TF的3D结构(目前依赖AlphaFold2预测)。
  • • 当前仅针对植物TF进行训练和验证。
  • • 尚不支持条件特异性结合(如组织、发育阶段、胁迫响应等)预测。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/947007.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

拜耳作物科学提出一种生物学引导的神经网络框架用于基因组选择(GS)

分享一篇2025年10月16日由拜耳旗下的拜耳作物科学公司在arxiv预印本上发表的文章:Biology-informed neural networks learn nonlinear representations from omics data to improve genomic prediction and interpret…

如何利用AI挖掘基因?一个很好的水稻例子

分享一篇近期由海南大学王华锋教授团队发表在International Journal of Biological Macromolecules(IF=8.5,JCR1)上的文章:Machine learning and functional validation identify OsRAV11/12 as negative regulato…

AI如何影响生物信息学的职业生涯?

分享一篇2025年10月13日来自Nature的职业专栏文章,题为《“我是否多余了?”——人工智能如何改变我在生物信息学的职业生涯》,作者是Lei Zhu。文章探讨了人工智能工具在生物信息学领域的崛起如何重塑研究者的角色,…

一个通过深度学习整合多组学功能注释的基因组预测模型DeepAnnotation

分享一篇2025年8月28日由中国农业科学院深圳农业基因组研究所刘毓文课题组在《GigaScience》上发表题为“DeepAnnotation: A novel interpretable deep learning–based genomic selection model that integrates comp…

如何整合多组学数据并利用机器学习算法进行基因组预测?

分享一篇中国农科院深圳基因组所周永锋老师团队发表在JGG上的文章:Integrative multi-omics and genomic prediction reveal genetic basis of early salt tolerance in alfalfa,研究了紫花苜蓿(Medicago sativa L.…

DPCformer:一种用于作物基因组预测的可解释深度学习模型

分享一篇2025年10月9日由华中农业大学国家作物遗传改良重点实验室在arxiv预印本上发表的文章:DPCformer: An Interpretable Deep Learning Model for Genomic Prediction in Crops。该研究开发了一种名为DPCformer的新…

Kubernetes端口列表与安全分析

本文详细列出了Kubernetes集群中常见的开放端口及其功能,包括10250和10255等kubelet端口的安全性分析,以及etcd、Dashboard等组件的端口配置,对容器安全评估具有重要参考价值。Kubernetes: 端口列表 其他Kubernetes…

《程序员修炼之道:从小工到专家》笔记2

1持续学习的习惯: 将技术知识视为一种会“腐烂”的商品,必须持续投入才能保值。 每年至少学习一门新语言,每季度阅读一本技术书籍,并坚持阅读非技术书籍以拓宽视野。 2知识资产的投资: 定期投资:像金融投资一样,…

android 基于okhttp的socket封装 - 实践

android 基于okhttp的socket封装 - 实践pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Mo…

2025 年 10 月门窗十大品牌榜单揭晓,专业制造与耐用售后口碑之选

2025 年 10 月门窗十大品牌榜单由中国建筑金属结构协会、全国工商联家具装饰业商会联合发布。此次评选聚焦消费者对门窗长期耐用性与售后保障的核心需求,突破传统单一性能评选局限,以《铝合金门窗》(GB/T 8478-2008…

2025 年 10 月门窗十大品牌榜单揭晓,专业制造与安全定制口碑之选

2025 年 10 月门窗十大品牌榜单由中国建筑金属结构协会、全国工商联家具装饰业商会联合发布。此次评选聚焦消费者对门窗安全防护与个性化定制的核心需求,突破传统单一性能评选局限,以《铝合金门窗》(GB/T 8478-2008…

线段树理论

很短的东西假设我们此时线段树维护的信息集合为 \(D\),标记集合为 \(T\),而对于一颗线段树,我们需要维护的操作无非就是:区间合并:把两个相邻区间 \([l_1,r_1],[l_2,r_2]\) 的序列信息合并起来作为大区间 \([l_1,…

[ICML2023]CLIPood Generalizing CLIP to Out-of-Distributions

Background OOD泛化任务(Out-of-Distribution (OOD) Generalization)包含两类子任务:域偏移(domain shift):指训练集和测试集分布不同,例如训练集是写实的,测试集是素描。这类问题的解决方法包括,主要是集中在…

最短路学习笔记

同余最短路 P3403 跳楼机 题意: 你可以采用以下四种方式移动:向上移动 \(x\) 层; 向上移动 \(y\) 层; 向上移动 \(z\) 层; 回到第一层。现在你在第一层,求你可以去到的楼层数

语文_阅读_The power of curiosity in science_待读

The power of curiosity in science 科学中的好奇心力量 Curiosity is one of the most important qualities a scientist can have. 好奇心是科学家最重要的品质之一。 It drives them to ask questions, explore the…

大学课堂“走神危机”,认真听讲能否破局?

作为一名大二的学生,我原本以为在大学课堂,偶尔走神、放松一下无伤大雅,船到桥头自然直,期末考试也能侥幸通过。然而,读完这篇文章后,我惊觉自己正深陷“走神危机”,而认真听讲或许才是破局的关键。 数据科学与…

【数据分析】基于大内容的葡萄酒品质内容可视化分析体系 | 大数据毕设实战项目 选题推荐 文档指导+ppt+运行部署 Hadoop+SPark+java

【数据分析】基于大内容的葡萄酒品质内容可视化分析体系 | 大数据毕设实战项目 选题推荐 文档指导+ppt+运行部署 Hadoop+SPark+javapre { white-space: pre !important; word-wrap: normal !important; overflow-x: au…

无符号整型左移33位

无符号整型左移33位这几天遇到一个问题时关于移位操作的,无符号整数左移33位的时候是什么现象。首先使用了AI 问答来照看问题的答案对于无符号整数左移33位的现象,实际上只会移动1位而不是33位,这是因为编译器会对移…

跨被动为主动:认真听讲,坚持实践

在读完第一篇<<大学生上课为什么一定要认真听讲?>>和后两篇关于他们关于做中学的分享之后,我理解到真正的学习,不能仅仅是被动地去学习,既需要专注的输入,也需要持续的实践与反馈。 对于我们大学生的学…

深入理解:Spring Environment

目录背景和价值参考资料 背景和价值 参考资料 https://www.cnblogs.com/johnnyzen/p/18455113#_label0