【文献分享】LyMOI一种结合深度学习和大规模语言模型的用于解读组学数据的工作流程

文章目录

    • 介绍
    • 代码
    • 参考

介绍

通过对海量组学数据进行分子全景分析,可以识别细胞中的调控网络,但还需要进行机制解读和实验验证。在此,我们结合深度学习和大型语言模型推理,开发了一种用于组学解读的混合工作流程,称为 LyMOI。LyMOI 采用了 GPT-3.5 来进行生物学知识推理,并使用了一个包含图卷积网络(GCN)的大型图模型。该大型图模型整合了进化上保守的蛋白质相互作用,并通过分层微调从多组学数据中预测特定环境下的分子调节因子。然后,GPT-3.5 生成机器的推理链(CoT),以机制上解读其在生物系统中的作用。以自噬为例,LyMOI 机制性地解读了 1.3TB 的转录组、蛋白质组和磷酸化蛋白质组数据,并扩展了对自噬调节因子的了解。我们还表明,LyMOI 重点突出了两种人类癌蛋白,CTSL 和 FAM98A,在使用抗肿瘤药物双硫仑(DSF)治疗时增强了自噬作用。在体外抑制这些基因会减弱 DSF 介导的自噬,并抑制癌细胞的增殖。令人惊讶的是,使用 Z-FY-CHO(一种此前用于预防 SARS-CoV-2 感染的 CTSL 特异性抑制剂)进行的 DSF 治疗,在体内显著抑制了肿瘤的生长。


随着高通量测序技术的迅速发展,包括转录组学、蛋白质组学和磷酸化蛋白质组学在内的“组学”技术已成为在各种生物系统中描绘整体分子全景的常用策略之一1,2。为了对海量的组学数据进行解读,诸如差异表达分析、富集分析和网络建模等经典方法已被广泛采用3,4。这些解读主要基于分子变化的统计学意义,然而关于生物学相关性的结果却远不尽如人意5,6。尽管已经开发了许多计算方法来提高组学数据挖掘的生物学相关性7,8,9,但这些数据背后的生物学机制仍需要进行解释和验证。
近来,自然语言处理(NLP)领域的进步为从句子中理解复杂概念提供了机会,从而促成了通过有效的人工智能交互实现的科学突破10。聊天生成预训练转换器(ChatGPT/GPT-3.5)11 继承了其前辈的成果,同时在自然语言理解和生成方面展现出了进步。ChatGPT 的训练涵盖了广泛的生物学和医学科学;然而,其知识库仅限于截至 2022 年 1 月可用的数据,这可能在解决前沿科学问题时带来挑战。为了弥补这一差距,诸如提示工程和链式思考(CoT)技术等方法强调了“人-机器协作”的方式 12、13、14。
在本研究中,我们开发了一个名为“大规模混合模型用于组学解读”(LyMOI)的平台,该平台将深度学习和大型语言模型(LLM)推理整合到一个单一框架中。LyMOI 工作流程以机制性方式对感兴趣的分子(MOIs)及其在不同生物系统中的分子关联进行推理,以细胞过程自噬为例(15,16)。通过提示工程,我们首先使 GPT-3.5 生成 56,980 对提示-生成组合(PGP)。随后,我们使用已报道的自噬调节基因对 1.3TB 的自噬相关多组学数据进行模型预训练。经过微调后,LyMOI 的预测在生物学相关性方面优于差异表达分析和富集分析。四个酵母自噬调节因子,Gin4、Elm1、Rvs167 和 Ste50,以及它们与核心自噬机制的关联均得到了实验验证,这支持了 LyMOI 的准确性。特别地,两种人类癌蛋白,CTSL 和 FAM98A,被推断为触发由二硫代甲酸盐(DSF)(一种抗肿瘤药物)触发的自噬所必需的,而 DSF 是一种抗肿瘤药物。进一步的实验表明,CTSL 和 FAM98A 通过在 DSF 处理后促进自噬活性来促进癌细胞的存活。令人意外的是,DSF 与 Z-FY-CHO(一种此前用于预防 SARS-CoV-2 感染的 CTSL 特异性抑制剂)联合使用,在体内对肿瘤生长表现出更强的抑制作用。此外,LyMOI 的扩展性被评估用于解释来自其他 6 个生物系统的整体和单细胞组学数据,包括砷毒性、乳腺癌转移、自闭症谱系障碍、人类自然杀伤细胞、人类皮质发育细胞和小鼠胚胎组织细胞等。总的来说,我们不仅开发了一个嵌入了 LLM 的用于组学解释的平台,具有生物学家般的常识,而且还优先考虑了癌症治疗的联合疗法。此外,我们提供了一种将图学习和 LLM 推理相结合的方法,以促进组学解释。我们预期这种人工智能与人类交互的策略能够为各种复杂的系统提供新的生物学和生物医学见解。

代码

https://github.com/BioCUCKOO/LyMOI

参考

  • A deep learning and large language hybrid workflow for omics interpretation
  • https://github.com/BioCUCKOO/LyMOI

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1163903.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

别再手动写代码了!Claude Skills 实战,让 AI 帮你干 80% 的活!

📋 目录 什么是 Claude Skills快速安装 Skills已安装的 Skills 清单Skills 使用方式详解实战案例:使用 Frontend Design Skill 创建网站Skill 管理最佳实践高级技巧常见问题排查 什么是 Claude Skills Claude Skills 是模块化的能力包,包含…

5.3 PPT制作效率爆炸提升:Gamma助力非设计专业也能做出精美演示文稿

5.3 PPT制作效率爆炸提升:Gamma助力非设计专业也能做出精美演示文稿 在职场沟通和商务展示中,演示文稿(PPT)是传递信息、展示观点和影响决策的重要工具。然而,对于大多数非设计专业的职场人士来说,制作一份既美观又专业的PPT往往是一项耗时耗力的任务。从内容组织到视觉设…

5.3 PPT制作效率爆炸提升:Gamma助力非设计专业也能做出精美演示文稿

5.3 PPT制作效率爆炸提升:Gamma助力非设计专业也能做出精美演示文稿 在职场沟通和商务展示中,演示文稿(PPT)是传递信息、展示观点和影响决策的重要工具。然而,对于大多数非设计专业的职场人士来说,制作一份既美观又专业的PPT往往是一项耗时耗力的任务。从内容组织到视觉设…

系统化方法论与实战案例

案例一:数据处理场景 —— 批量清洗 CSV 文件中的无效数据1. 问题定义与需求拆解核心问题某业务场景下有一批用户信息 CSV 文件(存储在user_data/目录下),存在三类无效数据:① 关键列(user_id、phone&#…

UVM太重了,小项目不需要?

同样一个testbench问题,十个人能给你讲出十种不同的理解方式和答案。SystemVerilog给了我们极大的灵活性,但灵活的代价就是混乱。张三用class写了一套,李四用task搞了另一套,王五直接module堆起来。表面上看都能跑通仿真&#xff…

每日面试题分享140:为什么不选择使用原生的NIO,而是使用Netty?

首先NIO存在一些问题:1、NIO提供了很多接口,适合精细化调用,但是对于通常使用过于复杂,开发难度大效率低。2、NIO存在一些bug,比如Selector空轮询。Netty的优势:1、Netty封装了NIO的API,更明确易…

每日面试题分享140:为什么不选择使用原生的NIO,而是使用Netty?

首先NIO存在一些问题:1、NIO提供了很多接口,适合精细化调用,但是对于通常使用过于复杂,开发难度大效率低。2、NIO存在一些bug,比如Selector空轮询。Netty的优势:1、Netty封装了NIO的API,更明确易…

每日面试题分享141:看过源码吗?说一下Spring有哪些模块?

1、核心容器core、beans、context、sepl2、AOP面向切面编程Spring AOPAspectJ3、数据库交互JDBCTransactions事务ORM4、web层Spring MVCWebFlux5、测试junittest ng

每日面试题分享141:看过源码吗?说一下Spring有哪些模块?

1、核心容器core、beans、context、sepl2、AOP面向切面编程Spring AOPAspectJ3、数据库交互JDBCTransactions事务ORM4、web层Spring MVCWebFlux5、测试junittest ng

[今日战况]前高一步之遥,新品种顶上来!ETF三因子轮动实盘跟踪!股票量化分析工具QTYX-V3.3.5

前言我们的股票量化系统QTYX在实战中不断迭代升级!!!分享QTYX系统目的是提供给大家一个搭建量化系统的模版,帮助大家搭建属于自己的系统。因此我们提供源码,可以根据自己的风格二次开发。 关于QTYX的使用攻略可以查看链接:QTYX使用攻略QTYX一…

5.2 Excel数据处理黑科技:秒级完成以前需要一天的工作量

5.2 Excel数据处理黑科技:秒级完成以前需要一天的工作量 Excel作为最广泛使用的数据处理工具之一,在职场中扮演着重要角色。然而,面对海量数据和复杂分析需求时,传统的Excel操作往往效率低下,处理数万行数据可能需要数小时甚至一整天的时间。随着AI技术与Excel的深度融合…

每日面试题分享142: 什么是Vue的过滤器?有哪些使用场景?

Vue的过滤器是一种数据格式化的功能,主要是文本格式化。在Vue2中使用,在Vue3中被移除了,使用方法和计算属性来替代。主要在双花括号插值和v-bind标签中使用。使用场景:数值格式化文本格式化日期时间格式化列表数据过滤

5.4 智能会议助手:自动记录、总结与任务分配

5.4 智能会议助手:自动记录、总结与任务分配 在现代职场中,会议是企业沟通协作的重要形式,但也是时间成本最高的活动之一。据统计,一个中型企业的员工每周平均花费8-12小时参加会议,而其中相当一部分时间被低效的会议流程所消耗。会议记录整理、要点总结、任务分配等后续…

别再神话 Claude Skills 了:这 12 个“致命”局限性你必须知道

网上有很多介绍 Claude Skills 的文章,但是很少有人提 Skills 的局限性。甚至看到有人稍微把 Skills 吹过头了!说实话,Skills 是解决大模型缺乏专业知识、解决上下文窗口等问题的一个先进解法,但目前还不完美。我认为当你无法说出…

5.8 智能日程管理:让AI成为你的个人助理

5.8 智能日程管理:让AI成为你的个人助理 在快节奏的现代职场中,时间管理已成为每个人必须掌握的核心技能。无论是企业高管还是普通员工,每天都需要处理大量的会议、任务、截止日期和各种突发事件,如何高效地安排和利用时间直接影响着工作成效和个人发展。传统的日程管理方…

‌血泪教训:我用AI生成测试用例,差点让系统上线就崩‌

效率的诱惑与潜藏的深渊在追求DevOps极致效率与持续交付的今天,人工智能(AI)正以前所未有的速度渗透到软件开发生命周期的各个环节。作为软件质量守护者的我们——测试工程师,自然无法抗拒AI带来的巨大诱惑:自动化生成…

‌别踩这5个AI测试坑!90%的团队都中招了‌

AI测试的挑战与陷阱的普遍性随着AI技术在各行业的渗透,软件测试从业者面临着前所未有的挑战。AI系统的复杂性、动态性和数据依赖性,使得传统测试方法难以覆盖所有风险点。调查显示,90%的测试团队在AI项目中踩过类似陷阱,导致模型偏…

5.7 多语言沟通桥梁:实时翻译打破语言障碍

5.7 多语言沟通桥梁:实时翻译打破语言障碍 在全球化的商业环境中,跨语言沟通已成为企业和个人日常工作中不可或缺的一部分。无论是国际商务谈判、跨国团队协作,还是海外客户接待,语言障碍都可能成为阻碍有效沟通的重要因素。虽然英语作为国际通用语言在一定程度上缓解了这…

4.7 多语言视频本地化:全球化内容传播策略

4.7 多语言视频本地化:全球化内容传播策略 引言:视频内容的全球化时代 在全球化数字经济时代,视频内容已成为跨越语言和文化边界的重要传播媒介。无论是跨国企业的品牌推广、教育机构的在线课程,还是内容创作者的国际拓展,多语言视频本地化都成为扩大影响力、触达全球受…

遵循GB/T4857.4标准 保障医药包装运输安全合规

在医疗器械、生物制药、敷料、疫苗等医药相关产品的全生命周期中,运输环节的产品保护至关重要。GB/T4857.4-2008《包装运输包装件基本试验 第4部分:采用压力试验机进行的抗压和堆码试验方法》作为核心标准,为相关产品包装的性能验证提供了科学依据。该标…