融合基因组序列识别scATAC-seq的细胞类型

利用scATAC-seq技术进行单细胞分析,可以在单细胞分辨率下深入了解基因调控和表观遗传异质性,但由于数据的高维性和极端稀疏性,scATAC-seq的细胞注释仍然具有挑战性。现有的细胞注释方法大多集中在细胞峰矩阵上,没有充分利用潜在的基因组序列。因此,SANGO通过整合scATAC数据中可及性峰周围的基因组序列来进行精确的单细胞注释。将峰的基因组序列编码成低维嵌入,然后通过全连通网络重建细胞的峰统计。将学习到的权重作为表示细胞的调控模式,并通过Graph Transformer将查询细胞与参考数据中标注的细胞对齐。

在55个scATAC-seq数据集上,SANGO在样本、平台和组织上的表现始终优于比较方法。SANGO还被证明能够通过Graph Transformer检测未知的肿瘤细胞。此外,通过基因表达富集分析、顺式调控染色质相互作用分析和基序富集分析,作者从注释细胞中发现了细胞类型特异性峰,这些峰提供了功能见解(生物信号)。

来自:Deciphering cell types by integrating scATAC-seq data with genome sequences

目录

  • 背景概述
  • 结果
    • SANGO的概述
    • 细胞类型注释性能
    • 揭示正常组织的生物学意义
    • 肿瘤微环境中的多水平细胞类型识别

背景概述

scATAC-seq为许多生物学应用提供了巨大的机会,包括检测细胞异质性和调控元件,重建分化轨迹和鉴定复杂疾病的生物学机制。scATAC-seq数据分析中最基本的问题之一是细胞类型鉴定,这对于理解复杂组织的组成和发现未知的细胞类型至关重要。目前,一种流行的策略是将细胞聚类,然后通过与特征基因对应的峰对细胞簇进行注释。这一过程繁琐而复杂,涉及专业专家。随着具有良好特征的公共scATAC-seq数据集的迅速增加,利用标记良好的细胞对新生成的数据集进行自动标注是有希望的。

由于scATAC数据固有地涉及可访问峰的高维性和每个细胞reads的稀疏性,因此已经开发了许多方法将scATAC-seq数据转换为合成的scRNA-seq数据,方法是估计“基因活性矩阵”,这些转换后的数据类似于scRNA-seq数据,并通过scRNA-seq注释工具进行处理。考虑到scRNA-seq数据与合成scRNA-seq数据的不同,一些方法已经通过神经网络专门针对scRNA-seq数据进行了优化。然而,这些方法只是简单地总结了基因周围峰的数量,从而忽略了峰的特异性。

为了解决这个问题,有一些方法直接使用逐细胞矩阵数据来注释细胞类型。例如,EpiAnno保留频繁的峰值,并将其输入到非线性贝叶斯神经网络中以捕获潜在空间。scATAnno强调通过估计不确定性分数来检测参考数据中不存在的未知细胞类型。虽然成功了,但这两种方法独立地考虑这些峰,而不考虑它们的相对位置。更重要的是,他们没有考虑基因组序列信息。

事实上,scATAC-seq数据中的峰值可以通过包含细胞类型特异性增强子的可及性和转录因子结合基序的潜在基因组序列来区分,这些基序可以提供有关发育状态和细胞身份的信息。基因组序列信息已被广泛用于预测基因表达、预测染色质可及性、提取embedding和预测增强子-启动子相互作用。然而,基因组信息尚未用于scATAC数据的细胞注释。

为此,作者提出了SANGO,这是一种精确且可扩展的基于图的方法,通过整合DNA序列信息来注释scATAC-seq数据中的细胞。SANGO首先通过通道注意力卷积神经网络(CA-CNN)从底层峰值的DNA序列信息中学习scATAC数据的低维信息表示。学习到的参考和查询数据的低维表示随后被输入到graph transformer中,通过在相似的细胞之间传播共享消息来消除批次效应。最后,通过参考数据中的细胞标签对graph transformer进行微调,并用于预测查询的细胞类型。研究证明,在55个scATAC-seq数据集上,SANGO在跨样本、跨平台和跨组织上的预测表现始终优于比较方法。它还被证明能够检测未知的肿瘤细胞。此外,从注释的细胞中,细胞类型特异性峰可用于下游分析,以提供功能见解。

结果

SANGO的概述

如图1所示,SANGO是一种基于深度学习的方法,用于注释scATAC-seq数据中的细胞。SANGO首先通过预测单细胞染色质可达性,从可达性峰下的DNA序列信息中提取细胞低维表示(阶段1),然后利用学习到的细胞表示根据参考数据集注释查询数据集的细胞类型(阶段2)。
fig1

  • 图1:SANGO的架构。SANGO包括序列信息提取和细胞类型预测两个阶段。在第1阶段,在第 i i i个峰附近,提取输入的 L L L-bp长度的DNA序列,并将其编码为 L × 4 L × 4 L×4矩阵(one-hot编码4种碱基)。矩阵经过 C C C个卷积滤波器的初始处理,生成维数为 C × F C × F C×F的特征矩阵。随后,将该矩阵输入到具有sigmoid和通道方向乘法的通道注意力一维卷积神经网络中。然后是瓶颈层来学习峰的 d d d维嵌入。这些嵌入随后被用于预测所有 N c e l l N_{cell} Ncell细胞的二元可达性,通过一个dense线性网络变换,其权重矩阵 W c W_{c} Wc的大小为 d × N c e l l d × N_{cell} d×Ncell。阶段1中所有可学习的参数通过所有峰上的二元交叉熵损失进行迭代优化。
  • 最后,在dense网络中学习到的权重作为 N c e l l N_{cell} Ncell细胞的 d d d维表示。第二阶段,利用学习到的参考数据和查询数据的表示,通过相似度构建细胞图,并利用graph transformer去除批效应,根据参考数据中 N r c e l l N_{rcell} Nrcell细胞的真值标签 Y Y Y和预测的细胞标签 Y ^ \widehat{Y} Y 。然后,训练后的graph transformer用于预测查询数据集上的标签。

细胞类型注释性能

数据集内部的注释
SANGO首先在14个intra-data上进行评估,每个数据集包含有注释的细胞类型作为参考数据,未注释的细胞类型作为查询数据。

跨平台和跨组织的注释
由于可用的参考数据集主要来自其他平台或组织,因此有必要评估跨平台和组织数据集的方法。在这里,作者首先比较了来自不同测序平台(10x Genomics, snATAC-seq和sciATAC-seq)的数据集,实验使用了19个配对的跨平台和组织的数据集,结果见图3a。
fig3a

  • 图3a:跨平台和跨组织的注释比较。

额外的,实验比较了更广泛的跨组织场景,对于跨7个组织(骨髓、肝、肾、肺、心、肠和小鼠脑)的22个跨组织数据集,见图3c。
fig3c

  • 图3c:更广泛的跨组织注释。

上面实验没有跨物种,都是鼠类上的注释。

数据集说明
数据集 BoneMarrowA、BoneMarrowB、LungA、LungB、Kidney、Liver、Heart、LargeIntestineA、LargeIntestineB、SmallIntestine、WholeBrainA、WholeBrainB、Cerebellum 和 PreFrontalCortex 源自成年小鼠图谱数据,这些数据集使用 sciATAC-seq 技术进行测序。

前部数据集(MosA1,MosA2),中间数据集(MosM1,MosM2)和后部数据集(MosP1,MosP2)来自小鼠大脑次级运动皮层的不同部分,这些数据集使用 snATAC-seq 技术进行测序。

Mouse Brain (10x) dataset和normal cortex dataset使用10x进行测序。

更多其他数据集参考:https://www.nature.com/articles/s43588-024-00622-7#data-availability

多参考-单查询的注释
为了评估SANGO在多源数据或图谱数据上的价值,作者采用了来自小鼠组织的多源数据集(由四个数据集组成)和肠道(由三个数据集组成)组成多源数据集。对于每个源,作者迭代地使用一个数据集作为查询数据,其余数据集作为多源参考数据,得到七个成对的多参考-单查询数据集。注释结果见图4a:
fig4a

  • 图4a:多源参考注释。

另外,可以用标记基因周围的峰值信号来验证SANGO的注释,比如图4d:
fig4d

  • 图4d:预测Memory B细胞和Naive B细胞中重要或高表达基因的染色质可及性coverage plots:Naive细胞为TCL1A,Memory B细胞为FCGR2B和TEX9。每个子图中的术语“region”表示染色体的一个基因组区域。

注释的Naive B细胞在报道的标记基因TCL1A上显示富集峰,而注释的Memory B细胞在标记基因FCGR2B和特异性表达的TEX9基因上显示富集峰。

揭示正常组织的生物学意义

为了证明SANGO的生物学机制揭示能力,作者用前额叶皮层作为参考数据来注释来自成年小鼠大脑的正常皮层数据。由于查询数据没有提供标签,作者首先通过coverage plot检查了预测细胞类型中特征基因的染色质可及性。如图5a所示,对于每种细胞类型特异性基因的基因组区域±3千碱基的峰值信号,scATAC-seq谱中的表观遗传特征在SANGO预测的细胞类型中表现出明显的峰值富集。这些标记基因丰富的表观遗传特征支持SANGO预测的细胞类型注释。
fig5a

  • 图5a:特征基因对应的峰表达。

为了研究预测细胞群的功能见解,作者从三个方面分析了细胞类型特异性峰。首先,通过Signac进行的基序富集分析结果显示,大多数基序是被注释的细胞类型所特有的。其中,兴奋性神经元细胞类型获得了最高的值,达到82%(在前50个基序中有41个细胞类型特异性基序),内皮细胞类型获得了最低的值,只有52%的细胞类型特异性基序。前10个细胞类型特异性基序在相应的细胞类型中富集(补充图14b)。
supfig14b

  • 补充图14b:每种细胞类型的前10个重要motifs。

如图5b所示,每种细胞类型的结合基序也得到了先前文献的支持。现有文献已经有结论:兴奋性神经元细胞(Ex.neurons)被发现富含TBX20、NEUROG2和NEUROD1。发现小胶质细胞富含ETV6、ELF3和SPIB。发现少突胶质细胞富含Sox6、Sox3和SOX13。
fig5b

  • 图5b:过度表达的DNA基序分别通过兴奋性神经元(excitatory neurons)、小胶质细胞(microglia)和少突胶质细胞(oligodendrocytes)的细胞类型特异性可及性峰来鉴定。

其次,通过SNPsea分析细胞类型特异性峰组和背景峰组中的单核苷酸多态性(SNPs),计算组织特异性表达富集。背景峰是通过从完整峰中省略这些细胞类型特异性峰的结合而得到的。分析量化了79个组织中组织特异性表达谱的富集程度,揭示了前30个兴奋性神经元显著富集的组织,如图5c所示,发现更多和脑组织相关:
fig5c

  • 图5c:在SNPsea分析中,考虑SANGO识别的兴奋性神经元特异性峰和背景峰,确定了前30个表现出大量富集的组织。

最后,SANGO可以揭示特定于细胞类型的可共同访问的位点。通过Cicero预测顺式调节染色质相互作用(图5d),观察到每种细胞类型特有的顺式调节相互作用。值得注意的是,细胞类型特异性峰(青色峰)与细胞类型特异性相互作用的模式很好地对齐,有效地减少了缺乏细胞类型特异性相互作用的基因组区域的假阳性鉴定。这些结果突出了这些细胞类型特异性峰在破译顺式调控规则和相互作用方面的潜力。
fig5d

  • 图5d:Cicero利用来自兴奋性神经元细胞、小胶质细胞和少突胶质细胞的scATAC-seq数据来预测顺式调节染色质相互作用。由SANGO识别的细胞类型特异性峰以青色突出显示。

肿瘤微环境中的多水平细胞类型识别

为了研究SANGO在多水平细胞类型预测中的能力,作者在肿瘤微环境中对由不同免疫亚型细胞和肿瘤细胞组成的样本数据进行了评估。通过参考具有合并免疫细胞类型的健康成人大图谱(HHLA)进行注释。

如图6a-c所示,SANGO将肿瘤细胞识别为“未知”。对于已知的细胞类型,大多数免疫细胞和内皮细胞被正确预测,正如river plot所示(图6d)。相反,成纤维细胞被预测为壁细胞(通常称为周细胞),可能是由于肿瘤微环境内周细胞和成纤维细胞之间的紧密联系。结果表明,该方法能有效区分肿瘤细胞和免疫细胞,并能识别未知类型的肿瘤细胞。
fig6a-d

  • 图6a-d:a.细胞按实际的细胞类型着色。b.每个细胞的"unkown"概率分数的UMAP可视化。c为SANGO预测的细胞类型。d.由SANGO标注的粗粒度细胞类型(左)映射到实际细胞类型(右)的River plot。

为了测试注释亚型的能力,使用基底细胞癌(BCC-TIL)的肿瘤浸润性淋巴细胞图谱来注释合并的免疫细胞,该图谱包含多种亚型的免疫细胞。SANGO识别免疫亚型的准确率达到90%(图6e,f)。
fig6ef

  • 图6e和f:更换参考数据集再注释,可以实现准确的亚型分类。这也是2阶段学习的优势。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/839150.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Flutter】 webview请求权限问题

需求&#xff1a;webview可以通过录音后语音转文字。 使用插件&#xff1a; permission_handler: ^11.0.1 webview_flutter: ^4.7.0 代码如下&#xff1a; 1.添加权限 添加安卓的权限&#xff1a; android/app/src/main/AndroidManifest.xml <uses-permission android…

vue使用EventBus进行跨组件通信

Vue中的EventBus&#xff0c;又称为事件总线&#xff0c;是一种常用的通信模式&#xff0c;它允许在Vue应用程序的不同组件之间进行松耦合的通信&#xff0c;尤其是对于那些没有直接父子关系的组件间的通信非常有用。EventBus基于Vue的自定义事件系统实现&#xff0c;工作原理遵…

商品指数创年内新高,粘性通胀成为美联储噩梦

文章概述 虽然美国4月CPI增幅放缓让美联储今年降息的可能性大增&#xff0c;但与此同时&#xff0c;大宗商品价格却达到了一年来的最高水平&#xff0c;粘性通胀可能成为美联储的噩梦。数据显示&#xff0c;跟踪24种能源、金属和农业合约彭博大宗商品现货指数今年以来已经上涨…

【ARM 嵌入式 C 入门及渐进 6.3 -- C 函数嵌入多条汇编语句 】

请阅读【嵌入式开发学习必备专栏】 文章目录 C 函数嵌入多条汇编语句C 函数嵌入多条汇编语句 在C代码中嵌入多条ARMv8汇编语句,可以通过将这些汇编指令放置在一个asm块内来实现。使用GCC的内嵌汇编语法,你可以顺序地编写多个指令,并根据需要指定输入、输出和被破坏(clobbe…

【APM】在Kubernetes中,使用Helm安装Prometheus Server 0.73.2(开启远程写入功能)

1、Prometheus 简介 Prometheus 是一款开源的监控和警报系统,起源于 SoundCloud 并在2012年开始被广泛采用。它在2016年成为 Cloud Native Computing Foundation (CNCF) 的成员项目,与 Kubernetes 齐名,是云原生计算领域的重要组成部分。Prometheus 以其强大的灵活性、易用…

训练的过程中内存一直增加的问题

可能的原因一&#xff1a; 解决pytorch训练的过程中内存一直增加的问题_pytorch训练过程中,内存一直增长-CSDN博客 可能的原因二&#xff1a; DataLoader num_workers > 0 causes CPU memory from parent process to be replicated in all worker processes Issue #13246…

DAY2 NETWORK

① 什么是IP地址 IP地址&#xff1a;是计算机在网络中唯一的标识&#xff0c;由两部分组成 分别是表示网络区域的网络号&#xff0c;和该网络下的主机编号 网络号&#xff1a;确定计算机所从属于哪个局域网络 主机号&#xff1a;计算机在该局域网络下的一个编号 ② IP的划分…

使用Flask ORM进行数据库操作的技术指南

文章目录 安装Flask SQLAlchemy配置数据库连接创建模型类数据库操作插入数据查询数据更新数据删除数据 总结 Flask是一个轻量级的Python Web框架&#xff0c;其灵活性和易用性使其成为开发人员喜爱的选择。而ORM&#xff08;对象关系映射&#xff09;则是一种将数据库中的表与面…

LeetCode题练习与总结:二叉树的最大深度--104

一、题目描述 给定一个二叉树 root &#xff0c;返回其最大深度。 二叉树的 最大深度 是指从根节点到最远叶子节点的最长路径上的节点数。 示例 1&#xff1a; 输入&#xff1a;root [3,9,20,null,null,15,7] 输出&#xff1a;3示例 2&#xff1a; 输入&#xff1a;root […

ESP32开发环境搭建Windows VSCode集成Espressif IDF插件开发环境搭建 IDF_V5.2.1

一、安装Visual Studio Code 下载地址&#xff1a;Download Visual Studio Code - Mac, Linux, Windows 打开上方链接&#xff0c;选择页面中的Windows版本&#xff0c;单击下载 将下载好的VSCodeUserSetup-x64-1.89.1.exe。单击右键&#xff0c;选择以管理员身份运行&#xf…

雪花算法 代码

/*** author lwh* date 2023/9/5* description 批量插入&#xff0c;手动设置**/ public class IdWorker {//因为二进制里第一个 bit 为如果是 1&#xff0c;那么都是负数&#xff0c;但是我们生成的 id 都是正数&#xff0c;所以第一个 bit 统一都是 0。//机器ID 2进制5位 3…

jenkins自动化部署详解

一、准备相关软件 整个自动化部署的过程就是从git仓库拉取最新代码&#xff0c;然后使用maven进行构建代码&#xff0c;构建包构建好了之后&#xff0c;通过ssh发送到发布服务的linux服务器的目录&#xff0c;最后在此服务器上执行相关的linux命令进行发布。 此篇文章jenkins…

gsap笔记

1.gsap基础 gsap.to() //从初始位置到设定位置 gsap.from() //从设定位置到初始位置 gsap.from("h1",{stagger:1 //设定末状态repeate:2 //重复次数yoyo: true //来回动画scale&#xff1a;1 //缩放倍数 }) //stagger:相同元素的按序播放…

【iOS安全】BurpSuite iOS https抓包 | DNS Spoofing

BurpSuite 完整版安装 参考&#xff1a;Admin Team 小数智 的博客 下载 Burp Suite 2021.6 官网下载地址 https://portswigger.net/burp/releases &#xff08;下载并安装好&#xff09; jdk 使用的是11.0.10 https://www.oracle.com/java/technologies/javase-jdk11-downl…

实用css整理

网页一键变灰 body{filter: grayscale(1); } 一般用于特殊时期&#xff0c;网页变灰&#xff0c;只需要给body标签添加这行样式代码。 一键换主题色 body {filter: hue-rotate(45deg);} 给body标签设置这个属性样式&#xff0c;改变角度看看效果吧。 设置字母大小写 p {t…

麦克纳母轮(全向)移动机器人集群控制的Simulink/Simscape虚拟仿真平台搭建

麦克纳姆轮是一种常见的全向移动机构&#xff0c;可以使机器人在平面内任意方向平移&#xff0c;同时可以利用差速轮车的属性实现自转&#xff0c;能够在狭窄且复杂多变的环境中自由运行&#xff0c;因而被广泛应用于竞赛机器人和特殊工业机器人场景。 Ps:最新的BYD仰望U8也有一…

项目启动失败,【consul】

如题&#xff0c;启动时项目未能正常启动&#xff0c;但上次都一切正常&#xff0c;日志提示&#xff1a; Consul service ids must not be empty, must start with a letter 经过排查是因为consul的consulconfigservice服务假死&#xff0c;导致无法正常获取到配置文件&am…

【全开源】Java无人共享棋牌室茶室台球室系统JAVA版本支持微信小程序+微信公众号

开启智能共享新时代 一、系统源码概述&#xff1a;引领自助服务潮流 随着科技的不断发展和人们生活节奏的加快&#xff0c;自助服务已逐渐成为人们生活中的一部分。为了满足市场对无人共享棋牌室、茶室、台球室的需求&#xff0c;我们推出了全新的无人共享系统源码。这套源码…

使用决策树对金融贷款数据进行分析

使用决策树对金融贷款数据进行分析 在本篇博客中&#xff0c;我们将通过使用 Python、Pandas 和多种机器学习技术&#xff0c;对一组贷款数据进行全面分析。通过详细的步骤展示&#xff0c;你将学会如何进行数据预处理、可视化分析以及构建预测模型。 第一步&#xff1a;导入…

Sping源码(七)—ConfigurationClassPostProcessor —— 后续处理

序言 前面的文章中介绍了 parser.parse(); 方法的整体处理逻辑&#xff0c; 其中包括Bean、Import、Configuration、CompopnentScan、Component等注解的解析。 来看看注解解析完的后续工作都做了些什么&#xff1f; 源码片段 简单回顾一下主方法processConfigBeanDefinition…