这一期我们介绍一个常见的,高分文章引用很高的一个单细胞转录组分析工具Hotspot,它可针对单细胞转录组数据识别有意义基因或者基因module,类似于聚类模块。所谓的”informative "的基因是那些在给定度量中相邻的细胞之间以相似的方式表达变化的基因。这也是我们在实际研究中期望的目的,发现与细胞类型以及状态相干的基因,这些基因(一类基因)往往呈现出独特的表达方式。听这些词是不是很熟悉呀,至少大家熟悉的WGCNA就有此类功能,那么相比于这些,Hotspot有什么突出点呢?
image.png
1-基于局部相关性网络(克服单细胞数据稀疏性)
2-识别空间或功能特异性的基因模块
3-能够以更高的计算效率识别相关基因,在分析大型数据集时优势明显,
4-能够识别反映细胞类型、亚型和表型梯度的基因,以及反映空间调控或遗传表达程序的基因
5-Hotspot不仅可以识别相关基因,还可以将它们组织成协调的基因模块。
工作流程如下:
Hotspot可用于单细胞转录组、空间转录组、谱系数据的分析。这里我们先介绍在单细胞转录组中的应用:
Hotspot是基于paython的分析工具,首先安装Hotspot:原理以及更多信息的请阅读作者原文paper:
pip install hotspotsc
#github 链接
# https://github.com/YosefLab/Hotspot
#原文paper
# https://linkinghub.elsevier.com/retrieve/pii/S2405471221001149
常规结果可视化如下:
image.png
很显然这个热图达不到我们的要求,且庞大的数据不适合R中进行修饰,或者需要很麻烦,所以我们自定义了一个python函数,可以个性化可视hotsopt结果:可自定义module颜色,调整热图,指示module基因。
hotspot_lc_heatmap_plot(hs_file = hs, module_cols = ['#66C5CC', '#F6CF71', '#F89C74', '#87C55F', '#9EB9F3', '#FE88B1','#8BE0A4'],label_gene = {"Module 1": ["IGHG1","S100A3","MSX1","HSPD1","GLUL","HLA-DMB","CD164","COA6"],"Module 2": ["WDR49","DNAAF1","POU2AF1","ARMC2","ERICH3","DNAH3"],"Module 3": ["CHMP5","IFT27","SERPINB1"],"Module 4": ["ZFAND3","SMYD3","TEAD1","CDH1","CX3CL1"],"Module 5":["HCP5","GULP1","PREX2","DLG4"],"Module 6": ["ROR2","PHIP","TNKS","CHD6","CLMN","TMEM131"],"Module 7": ["DIPK2B","MCAM","RUNX3","CREM","GMFG","PTGDS","CHST11","CCL14","PRKG1"]})
image.png
完美!!!