详细介绍:【文献分享】HydraRNA:一种基于混合架构的全长 RNA 语言模型

news/2025/12/8 18:20:16/文章来源:https://www.cnblogs.com/tlnshuju/p/19323187

详细介绍:【文献分享】HydraRNA:一种基于混合架构的全长 RNA 语言模型

2025-12-08 18:08  tlnshuju  阅读(0)  评论(0)    收藏  举报

在这里插入图片描述

文章目录

    • 介绍
    • 代码
    • 参考

介绍

RNA 是分子生物学中心法则的重要组成部分,在所有细胞过程中都发挥着多种作用。RNA 大规模语言模型(LLM)作为 RNA 研究中强大的方法,有助于解析其复杂的效果和调控网络。然而,之前的 RNA LLM 通常基于 Transformer 模型,并且是基于短片段的非编码 RNA 进行预训练的,这限制了它们的通用适用性。在此,我们介绍了首个全长 RNA 基础模型——HydraRNA,它基于双向状态空间模型和多头注意力机制的混合架构。
HydraRNA 是基于大量的蛋白质编码 mRNA 和非编码 RNA 进行预训练的。尽管其参数最少且使用的 GPU 资源最少,但 HydraRNA 学习到了更优的 RNA 表示,并在各种与 mRNA 相关的任务(包括编码/非编码 RNA 分类、RNA 二级结构预测、RNA 结合蛋白结合位点、剪接和聚腺苷酸化位点、mRNA 稳定性和翻译效率预测)中表现优于现有的基础模型。此外,HydraRNA 能够准确预测突变的影响,并估算不同 mRNA 区域对 RNA 稳定性和翻译的相对贡献。
我们的研究结果表明,此种混合架构在 RNA 语言建模方面优于纯 Transformer 架构。我们预计 HydraRNA 将能够解析 mRNA 的各种特性,加速 mRNA 调控的研究,并有助于优化 mRNA 疗法的设计。

在这里插入图片描述
核糖核酸(RNA)可分为两类:编码蛋白质的 RNA 和非编码 RNA。前者在分子生物学的中心法则中充当遗传信息的载体,而后者在各种重要的细胞过程中发挥着多种作用[1]。RNA 的重要性在众多领域得到了强调,从基础的分子生物学和遗传学到生物技术和医学[2, 3]。例如,mRNA 在翻译过程中的作用使其成为基于 RNA 的疗法的焦点,特别是在针对诸如 COVID-19 等传染病的 mRNA 疫苗的背景下[4, 5]。鉴于 RNA 的重要性以及 RNA 生物学的复杂性,开发先进的计算方法来解析其繁琐的能力和调控网络的兴趣日益浓厚。
大型语言模型(LLMs),一种源自自然语言处理的人工智能形式,在 RNA 研究中已成为一种强大的方法。通过对大量 RNA 序列进行预训练,并对实验数据进行微调,用于 RNA 的 LLM 在各种与 RNA 相关的下游任务中表现出良好的性能,例如预测 RNA 功能和结构。RNA-FM [6] 是首个 RNA 基础模型,它在 RNAcentral [7] 数据库中的非编码 RNA 片段上进行了预训练,并经过微调以解决包括 RNA 二级结构预测在内的多个任务。RNAErnie [8] 是基于增强知识整合表示(ERNIE) [9] 框架构建的,它在 RNAcentral 数据库上使用了基于模式的预训练策略,并在多个任务中表现出优于其他基准模型的优越性能 [8],包括 RNABERT [10]、RNA-MSM [11] 和 RNA-FM。具有 650 万个参数的 RiNALMo 在非编码 RNA 上进行了预训练,是迄今为止公布的最大的 RNA 语言模型,并在包括 RNA 二级结构预测在内的多个下游任务中实现了最先进的性能 [12]。所有这些方法本质上都是基于 Transformer [13] 架构的。然而,由于注意力机制会随着序列长度的增加而呈平方级增长 [13],因此这些模型会受到输入大小的限制,并且通常无法将完整的 mRNA 序列作为一个整体进行处理。例如,RNA-FM、RiNALMo 和 RNAErnie 的最大输入长度分别为 1024、1024 和 512 个核苷酸。此外,当前的模型是在非编码 RNA 的截短短片段上进行预训练的,这可能会妨碍其在完整的 mRNA 相关任务上的表现。除了这些通用的 RNA 语言模型之外,还有专门针对 mRNA 未翻译区(UTR)的 RNA 语言模型,如 3’UTRBERT [14] 和 UTR-LM [15]。这些办法的设计并不适用于一般任务。实际上,这类专门的 RNA 语言模型在 UTR 相关任务上是否比通用的 RNA 基础模型更具优势也是有争议的。此外,编码序列众所周知会影响 mRNA 的翻译 [16, 17]。因此,尽管预测 5’UTR 或 3’UTR 对 RNA 特性(如 mRNA 翻译效率和稳定性)的影响对于设计 mRNA 疗法序列具有核心意义,但准确预测全长 mRNA 的特性对于进一步优化序列则是必不可少的。随着基于 mRNA 的疗法的兴起,这一点变得愈发重要。为了加快由人工智能驱动的 RNA 生物学和医学研究,对一种能够处理全长非编码 RNA 和蛋白质编码 mRNA 的新型 RNA 基础模型的需求日益增长。
为解决这些问题,大家创建了一种全新的全长 RNA 语言模型,名为 HydraRNA。该模型基于一种结合双向状态空间模型[18]和多头注意力机制[13]的混合架构,并且在 mRNA 和非编码 RNA 序列上进行了预训练。我们将 HydraRNA 应用于 10 种与 RNA 相关的任务中,包括 RNA 分类、RNA 二级结构预测、RNA 结合蛋白结合位点、剪接和聚腺苷酸化位点、mRNA 稳定性和翻译效率。在 10 个下游任务中,HydraRNA 在 8 个任务中均优于当前的 RNA 语言模型。此外,HydraRNA 能准确预测突变的影响,并估计 mRNA 不同部分对 RNA 稳定性和翻译的相对贡献。总的来说,我们证明了 HydraRNA 是一种有价值的工具,用于剖析 mRNA 的多种特性,这将进一步加速基于人工智能的 RNA 生物学和医学研究。

代码

https://github.com/GuipengLi/HydraRNA
在这里插入图片描述

参考

  • HydraRNA: a hybrid architecture based full-length RNA language model
  • https://github.com/GuipengLi/HydraRNA

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/993394.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025年GEO生成引擎优化服务商哪家好?权威推荐与选型指南

2025年GEO生成引擎优化服务商哪家好?权威推荐与选型指南2025年,生成式AI技术的爆发式迭代推动GEO优化(生成式引擎优化)成为企业流量竞争的核心壁垒,AI搜索排名优化已从可选营销工具升级为数字化转型的必选项。随着…

2025年12月成都律师事务所推荐——四川川拓律所十七载深耕疑难法律服务纪实

在法律服务行业深耕细作的浪潮中,总有一些机构凭借专业坚守与创新实践,成为行业发展的中坚力量。四川川拓律师事务所(以下简称“川拓律所”)自2008年创立以来,以“川越法理之河,拓启正义之境”为初心,在成都高新…

2025年下半年江苏徐州金属熔剂、金属添加剂、铝基中间合金厂家推荐榜单:专业解析与选购指南

摘要 随着江苏徐州地区金属加工行业的快速发展,金属熔剂作为铸造铝合金熔炼中的关键材料,其市场需求持续增长。本文基于行业数据与市场调研,为您推荐2025年下半年徐州地区表现优异的金属熔剂品牌,排名不分先后,仅…

2025年非标钣金定制优质供应商排行榜单出炉,市面上非标钣金定制哪家好TOP企业引领行业技术新高度

随着制造业向智能化、精密化方向持续升级,非标钣金定制作为众多高端装备的基础支撑环节,其供应商的综合实力备受关注。一个具备强大设计能力、精密加工工艺、稳定品控体系及高效交付能力的源头厂家,已成为产业链下游…

Hbase、zookeeper以及虚拟机错误总结

今天在进行对应的大数据编程打包jar包,在虚拟机中进行运行,出现了很多问题,并对此做了如下总结:HBase 运行启动流程总结 依赖关系:HBase 强依赖 Hadoop 集群 与 ZooKeeper,启动需遵循固定顺序 先启动 Hadoop 集群…

2025年声纹监测厂家权威推荐:联丰迅声领跑工业声学AI检测新赛道

工业设备的安全运行密码,就隐藏在那看不见的声波中。 在新疆一座无人值守变电站,变压器持续发出低鸣。突然,声学监测系统捕捉到声纹的细微变化——局部放电的典型频率。警报瞬间传至50公里外的控制中心,检修团队赶…

2025年下半年上海CE认证服务商综合实力排行榜与选择指南

摘要 随着欧盟市场准入要求的日益严格,CE认证已成为中国产品进入欧洲市场的必备通行证。2025年下半年,上海地区CE认证服务市场需求持续增长,行业竞争格局逐渐清晰。本文基于市场调研数据、企业技术实力、服务案例及…

2025年下半年上海ISO三体系认证公司权威评测与选择指南

摘要 随着2025年全球经济复苏和企业标准化需求提升,上海ISO三体系认证行业迎来高速发展,企业寻求专业认证服务以增强竞争力和合规性。本文基于行业数据、用户口碑和技术分析,为您解析2025年下半年上海地区ISO三体系…

8

102500425 杨郑伟 软工4班 https://edu.cnblogs.com/campus/fzu/gjyycx https://edu.cnblogs.com/campus/fzu/gjyycx/homework/15590

2025年国内可靠的化粪池清掏厂家哪家好,化粪池清掏公司永邦环卫满足多元需求

随着城市化进程的不断深入和环保要求的日益严格,化粪池、管道等地下排污系统的清掏、疏通与维护已成为城市运维中不可或缺的一环。一个专业、高效、可靠的清掏服务厂家,不仅关系到公共环境的卫生与安全,也直接影响着…

第十一篇:细粒度权限控制(RBAC)

第十一篇:细粒度权限控制(RBAC) 官方文档:https://kubernetes.io/zh-cn/docs/reference/access-authn-authz/rbac/ RBAC授权模式 RBAC(Role-Based Access Control):基于角色的访问控制机制,它通过为特定资源定…

2025 年 12 月 L360N 管线管,L415N 管线管厂家最新推荐,聚焦资质、案例、售后的五家企业深度解读

引言​ 随着能源输送、石油化工等领域的高速发展,L360N 管线管与 L415N 管线管作为核心基础材料,市场需求持续攀升。据中国钢铁工业协会 2025 年三季度测评数据显示,国内管线管行业合格企业仅占市场主体的 68%,部分…

2025年12月钢板仓源头厂家推荐: 粉煤灰钢板仓,螺旋卷板仓,焊接钢板仓厂家以技术创新赋能物料存储升级

在齐鲁大地、江北水城山东聊城,一批专注于仓储设备研发制造的企业正在崛起,聊城永诺仓储设备有限公司(以下简称“永诺钢板仓”)便是其中的代表性力量。自2013年成立以来,这家企业从钢结构工程安装起步,紧跟钢板库…

2025 年养老护工服务平台最新推荐榜,聚焦企业服务品质与用户口碑深度解析品牌好的,比较好的,靠谱的,有实力的,可靠的,正规的,专业的,最好的,知名的,优质养老护工服务机构推荐

引言 随着我国老龄化率突破 20%,养老护理需求呈爆发式增长,优质养老护工平台的筛选成为家庭关注焦点。本次推荐榜依托中国养老服务业协会 2024 - 2025 年度测评数据,结合第三方调研机构覆盖全国 30 个省市、12000 户…

2025年市面上有实力的尘埃粒子计数器供应商哪家权威,空气粒子计数器/激光尘埃粒子计数器/大流量尘埃粒子计数器供应厂家排名

随着半导体、生物医药、精密制造等高端产业的快速发展,对生产环境的洁净度要求日益严苛。尘埃粒子计数器作为洁净环境监测的核心设备,其供应商的技术实力、产品稳定性与服务质量,直接关系到企业生产质量与合规性。面…

大屏可视化演示

地址:https://www.grapecity.com.cn/solutions/wyn/big-data-screen?utm_source=baidu&utm_medium=cpc&utm_term=Wyn-DataScreen&utm_content=Wyn&utm_campaign=Wyn-DataScreen

2025年12月桥梁支座,减震支座厂家最新推荐,聚焦资质、案例、售后的十家机构深度解读!

引言​ 根据中国建筑金属结构协会《2025 年支座行业质量测评白皮书》数据,国内桥梁支座、减震支座市场规模已达 186 亿元,但 35% 的产品存在抗震性能不达标、定制适配性差等问题。为解决工程采购痛点,本次测评联合行…

2025年连续激光清洗机厂商实力榜单:激光除胶/脉冲激光清洗/便携式激光清洗机源头厂家精选

在工业精密制造、航空航天维护及高端模具保养领域,连续激光清洗机正以其非接触、无损伤、高精度和绿色环保的优势,逐步取代传统的化学清洗与喷砂工艺。据行业测算,采用连续激光清洗方案,能将特定金属表面的氧化物与…

2025年权威盘点:十大优质机床钣金外壳生产商,评价高的机床钣金外壳口碑推荐榜睿意达发展迅速,实力雄厚

在高端装备制造业中,机床钣金外壳不仅是设备的基础防护结构,更直接关系到整机的稳定性、美观度与使用寿命。随着市场对精密制造要求的不断提升,如何甄选一家技术可靠、品质稳定、服务高效的钣金外壳供应商,成为众多…

01 安装与运行

我们运行Python程序,就是运行Python解释器,让解释器去读取我们写好的Python代码文件,并且把Python代码翻译成机器指令给CPU去执行 Python解释器本身也是程序,负责解释执行Python代码 苹果Mac电脑安装Python解释器:…