【论文阅读】Simulating 500 million years of evolution with a language model

Simulating 500 million years of evolution with a language model

1、概述

展示了语言模型在蛋白质设计和进化模拟方面的能力。通过对 ESM3 模型的研究,发现其能够生成与自然蛋白质差异较大且具有功能的新蛋白质,如新型绿色荧光蛋白(GFP),表明语言模型可以达到自然进化未探索的蛋白质设计空间,为蛋白质工程和进化研究提供了新的途径和见解。

2、蛋白质与语言模型的背景知识

2.1 蛋白质的进化与特性

蛋白质的的自然进化:经过数十亿年自然进化形成,其模式如同在一个空间中,每个蛋白质通过突变等变化与其他蛋白质相连,进化路径受系统功能维持约束,随机突变和选择塑造其结构和功能。
基因测序调查显示蛋白质序列和结构的多样性,暗示存在潜在的蛋白质生物学语言,可以通过语言模型理解
荧光蛋白特性:GFP家族能形成荧光发色团,无需辅助因子或底物,其独特结构(十一链 β 桶和中心螺旋)使得发色团形成,该过程对突变敏感,少量随机突变即可导致荧光消失,在生物技术中是重要工具。

2.2 蛋白质语言模型的发展

已有多种蛋白质序列语言模型被开发和评估,发现其表示能够反映蛋白质结构和功能,且在无监督学习中学习到,随规模扩大性能提升,如ESM3通过对离散标记的处理和训练,在表示学习和生成应用中取得改进

3、ESM3模型的架构和训练

3.1 架构

3.1.1 总体概述

ESM3是多模态生成模型,对序列、结构和功能等多种模态进行推理,输入通过标记化处理,经过transformer和几何注意力等处理,输出可通过解码器转换为具体形式,如结构标记可解码为原子坐标。
模型采用预训练任务学习蛋白质的深层结构和生物学特性,以解决下一个标记预测任务,从而实现对蛋白质序列、结构和功能的联合建模和生成。

3.1.1.2 具体组成

标记化:所有channel(序列、结构、二级结构、SASA、功能注释、残基注释等等)都表示为标记序列,每个氨基酸位置有特定标记,如序列用29种标记(20种氨基酸+特殊标记),结构标记有4096个+4个特殊标记,功能标记通过对关键词的处理得到等。
输入与前向传播:ESM3能接受多种输入channel,如结构坐标,二级结构标签等,通过嵌入和求和等操作处理后输入transformer块,然后经过回归头得到各个channel的预测结果。
transformer:基于transformer架构改进,采用Pre-LN、旋转嵌入和SwiGLU等,核心修改是在网络第一层插入集和注意力子层,不同规模的模型(ESm3-small、medium、large)有不同的层数和参数设置。
几何注意力:通过处理骨架框架和原子坐标信息,以旋转和平移不变的方式整合几何信息想,实现对蛋白质局部骨架几何的推理,在结构标记编码器和ESM3第一层中使用。
结构标记器:用VQ-VAE编码器将每个残基与一个结构标

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/881062.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何使用工具删除 iPhone 上的图片背景

在 iPhone 上删除背景图像变得简单易行。感谢最近 iOS 更新中引入的新功能。如今,iOS 用户现在可以毫不费力地删除背景,而无需复杂的应用程序。在这篇文章中,您将学习如何使用各种方法去除 iPhone 上的背景。这可确保您可以选择最适合您偏好的…

通信工程学习:什么是IP网际协议

IP:网际协议 IP网际协议(Internet Protocol,简称IP)是整个TCP/IP协议栈中的核心协议之一,它负责在网络中传送数据包,并提供寻址和路由功能。以下是对IP网际协议的详细解释: 一、对IP网际协议的…

哈尔滨自闭症学校寄宿条件与优势解析

自闭症儿童的希望之光:广州星贝育园寄宿制学校深度解析 在当今社会,自闭症儿童作为一群需要特别关注和照顾的群体,其教育与康复问题日益受到社会各界的重视。自闭症儿童不仅需要专业的康复训练,还需要一个稳定、温馨且充满爱的环…

Java:插入排序

目录 排序的概念 插入排序 直接插入排序 哈希排序 排序的概念 排序:所谓的排序,就是使一串记录,按照某个或某些关键字的大小,递增或递减的排列起来的操作。 稳定性:假定在待排序的记录序列中,存在多个…

Linux基础命令uname详解

uname 是一个在 Linux 和 Unix 系统中用来显示系统信息的命令。它通常用于获取有关操作系统和内核的基本信息。以下是 uname 命令的基本用法和常用参数的详解。 基本用法 uname [OPTION]... 常用选项详解 -a, --all 显示系统的所有信息,包括内核名称、主机名、内…

【设计模式-解释模式】

定义 解释器模式是一种行为设计模式,用于定义一种语言的文法,并提供一个解释器来处理该语言的句子。它通过为每个语法规则定义一个类,使得可以将复杂的表达式逐步解析和求值。这种模式适用于需要解析和执行语法规则的场景。 UML图 组成角色…

Redis中String类型的常用命令(append,getrenge,setrange等命令)

Redis----String命令 前言.常见的String存储类型. 常见命令1. set 命令2. get 命令3. mget命令与mset命令4. setnx命令5. setex与psetex命令6. incr与incrby与incrbyfloat命令7. decr与decrby命令8. append命令9. getrange和setrange命令10. strlen命令. 前言. 常见的String存…

关于Generator,async 和 await的介绍

在本篇文章中我们主要围绕下面几个问题来介绍async 和await 🍰Generator的作用,async 及 await 的特点,它们的优点和缺点分别是什么?await 原理是什么? 📅我的感受是我们先来了解Generator,在去…

【AI学习】Mamba学习(二):线性注意力

上一篇《Mamba学习(一):总体架构》提到,Transformer 模型的主要缺点是:自注意力机制的计算量会随着上下文长度的增加呈平方级增长。所以,许多次二次时间架构(指一个函数或算法的增长速度小于二次…

鸿蒙星河Next系统从入门到精通:开启智能设备新纪元

1. 引言 鸿蒙星河Next系统作为华为最新推出的智能设备操作系统,为开发者带来了全新的机遇和挑战。本文将带您深入了解鸿蒙星河Next系统,从入门基础到高级应用,全方位提升您的开发技能。 2. 鸿蒙星河Next系统概述 2.1 什么是鸿蒙星河Next系…

JAVA思维提升案例5

抢红包案例: 要求: 一个大V直播时发起了抢红包活动,分别有:9、666、188、520、99999五个红包。 请模拟粉丝来抽奖,按照先来先得,随机抽取,抽完即止,注意:一个红包只能被…

详解zookeeper四字命令

ZooKeeper 的四字命令(Four-Letter Words, 4LW)是一组简单的管理和监控命令,方便运维人员快速获取 ZooKeeper 集群和节点的运行状态。这些命令通常用于健康检查、性能监控、节点配置查看等操作。通过这些命令,可以轻松获取关于 Zo…

linux下yum安装时出现Loaded plugins: fastestmirror的解决办法

一、centos7修改源 在CentOS 7中,修改系统软件源可以通过编辑/etc/yum.repos.d/目录下的.repo文件来实现。以下是一个基本的步骤和示例代码,用于将默认的软件源修改为阿里云的源。 备份当前的CentOS-Base.repo文件: sudo cp /etc/yum.repos.…

PD协议芯片ECP5701+充电管理芯片+升压芯片搭配应用TYPE-C口充电及升压供电系统

以往的电子设备需要有专门的电源适配器来供电,不仅需要大家区分不同设备的充电器,还要专门找地方来放置,还给用户带来了诸多不便。然而,TYPE-C接口,全称USB Type-C,迅速取代了传统的USB接口,成为…

如何在 Ubuntu 18.04 上使用 LEMP 安装 WordPress

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站。 简介 WordPress 是互联网上最流行的 CMS(内容管理系统)。它允许您在 MySQL 后端和 PHP 处理的基础上轻松设置灵…

【架构】efk日志监控

文章目录 一、EFK组件及其功能二、EFK日志监控的工作流程三、EFK日志监控的优势四、EFK日志监控的应用场景 推荐阅读 EFK日志监控是一种高效的日志管理解决方案,由Elasticsearch、Fluentd(或Logstash)和Kibana三个开源工具组成。以下是对EFK日…

[linux 驱动]input输入子系统详解与实战

目录 1 描述 2 结构体 2.1 input_class 2.2 input_dev 2.4 input_event 2.4 input_dev_type 3 input接口 3.1 input_allocate_device 3.2 input_free_device 3.3 input_register_device 3.4 input_unregister_device 3.5 input_event 3.6 input_sync 3.7 input_se…

昇思MindSpore进阶教程--雅可比矩阵

大家好,我是刘明,明志科技创始人,华为昇思MindSpore布道师。 技术上主攻前端开发、鸿蒙开发和AI算法研究。 努力为大家带来持续的技术分享,如果你也喜欢我的文章,就点个关注吧 雅可比矩阵 雅可比矩阵的应用&#xff1…

Python知识点:如何使用Multiprocessing进行并行任务管理

开篇,先说一个好消息,截止到2025年1月1日前,翻到文末找到我,赠送定制版的开题报告和任务书,先到先得!过期不候! 如何在Python中使用Multiprocessing进行并行任务管理 在现代编程中,…

排序算法剖析

文章目录 排序算法浅谈参考资料评价指标可视化工具概览 插入排序折半插入排序希尔排序冒泡排序快速排序简单选择排序堆排序归并排序基数排序 排序算法浅谈 参考资料 数据结构与算法 评价指标 稳定性:两个相同的关键字排序过后相对位置不发生变化时间复杂度空间复…