有关MGnify

news/2026/1/21 19:12:14/文章来源:https://www.cnblogs.com/meme-/p/19513789

这段话主要介绍了 MGnify 数据库 2024年4月版 中蛋白质数据的来源、处理方式和文件格式。

为了让你一看就懂,我把它拆解成直译大白话解释两部分:

1. 直译(学术版)

MGnify 蛋白质序列来自对公开宏基因组组装的分析,使用了组合基因预测工具(Prodigal 和 FragGeneScan)。每个序列都有一个 MGYP 编号。MGYP 是非冗余1 的,也就是说,完全相同的序列共用同一个编号。我们会记录序列在组装(ERZ)和重叠群(MGYC)中的具体位置,以及其所属的生物群系(Biome)。这些序列在 90% 的覆盖度和一致性阈值下进行了聚类(打包)。此外,还利用 HMMER 工具添加了 Pfam 功能注释。在文件头中,FL 代表是否全长,CR 代表是否为聚类代表。


2. 大白话解释(通俗版)

你可以把这个数据库想象成一个巨大的蛋白质“图书馆”,这段话就是它的入馆说明书

  • 来源(哪里来的?)
    这些蛋白质是从大自然(比如海水、土壤、肠道)的基因数据里挖出来的,用了两个“探测器”(Prodigal 和 FragGeneScan)来找它们。
  • 身份证 (MGYP)
    MGYP 就是蛋白质的身份证号。为了不浪费空间,长得一模一样的蛋白质只发一张身份证,大家都用同一个号(非冗余)。
  • 家庭住址 (ERZ/MGYC)
    系统记录了每个蛋白质原来住在哪里(属于哪个基因拼图 ERZ,在哪个片段 MGYC 上),以及它的老家环境(Biome,比如它是来自海洋还是来自森林)。
  • 分组打包 (Clustering)
    为了方便管理,系统把相似度超过 90% 的蛋白质打成一个包(Cluster)。这就好比把“红苹果”和“深红苹果”放在同一个篮子里。
  • 功能标签 (Pfam)
    用一种算法(HMMER)给蛋白质贴上了标签,告诉你这个蛋白质大概是干什么用的
  • 文件暗号 (Fasta Header)
    你在下载的文件里会看到两个标记:
  • FL=1:表示这个蛋白质是完整的(没缺胳膊少腿);如果是 0 就是残缺的。
  • CR=1:表示它是这个小组的组长(代表序列);如果是 0 就是普通组员。

  1. 冗余:包含测序得到所有的序列
    非冗余:相同ACGT排序序列仅保留一条并记录所有的采样环境

2. 核心关系与统计类 (Excel 表格)

mgy_assemblies.tsv.gz

  • 翻译:MGYP(蛋白)与 ERZ(组装项目)的对应表。
  • 用途查户口
  • 你想知道某个蛋白质(MGYP)是在哪些测序项目(ERZ)里被找到的?查这个表。
  • 它记录了“蛋白 ID”和“来源项目 ID”的关系。

mgy_biome_counts.tsv.gz

  • 翻译:生态位(环境)计数统计。
  • 用途宏观统计
  • 比如:整个数据库里,“海洋”环境的数据出现了多少次,“人类肠道”环境出现了多少次。
  • 它是看大环境的,不针对具体蛋白。

mgy_biomes.tsv.gz

  • 翻译:蛋白与生态位的关联表。
  • 用途查成分/来源
  • 针对具体蛋白。比如 MGYP001 这个蛋白,它在“海洋”里出现了 5 次,在“土壤”里出现了 0 次。
  • 如果你想研究“哪些蛋白只在肠道里有”,就用这个表。

mgy_proteins_pfam.tsv.gz

  • 翻译:Pfam 功能注释表(由 HMMER 生成)。
  • 用途查功能(最重要文件之一)
  • 这堆字母组成的蛋白到底是干嘛的?是酶?是受体?还是毒素?
  • 每一行告诉你:某个蛋白(MGYP)包含什么功能结构域(Pfam),以及可信度(E-value)是多少。

3. 聚类/去重类 (Cluster)

这部分是关于“把相似的蛋白归为一个小组(Cluster)”的文件。

mgy_cluster_seqs.tsv.gz

  • 翻译:聚类成员列表。
  • 用途群成员名单
  • 第一列是“群主”(代表序列 ID),第二列是所有“群员”(和群主长得很像的其他蛋白 ID)。
  • 你想找某一类蛋白的所有变体,就查这里。

mgy_clusters.fa.gz

  • 翻译:聚类代表序列的 FASTA 文件。
  • 用途群主的证件照
  • 这里只包含每个小组中那个唯一的代表序列(Non-redundant)。
  • 做分析时,通常先跑这个文件,因为它比全量文件小得多,跑得快。

mgy_clusters.tsv.gz

  • 翻译:聚类统计信息表。
  • 用途群信息汇总
  • 这个群有多大?有多少个完全一模一样的序列?群主主要出现在哪种环境?整个群分布在哪些环境?

4. 序列与元数据类 (拆分文件)

mgy_counts.tsv.gz

  • 翻译:MGYP 计数表。
  • 用途查热度
  • 某个蛋白(MGYP)在数据库里一共被观察到了多少次。数字越大,说明这个蛋白在自然界越常见。

mgy_proteins_N.fa.gz (那个 N 代表数字,比如 proteins_1, proteins_2...)

  • 翻译:所有蛋白序列的 FASTA 文件(分卷)。
  • 用途全家福
  • 这里面是所有的蛋白质序列,不管是否重复。
  • 因为数据量太大(可能有几十亿条),一个文件装不下,所以切成了很多个小文件(分卷)。

mgy_seq_metadata_N.tsv.gz

  • 翻译:序列元数据映射表(分卷)。
  • 用途详细定位
  • 告诉你每个蛋白具体在基因组的哪一段(坐标、正负链)。
  • 格式里的一串代码 ERZ.MGYC:start-end 就是它的精确“GPS 坐标”。

mgy_contig_map_N.tsv.gz

  • 翻译:MGYC(重叠群)与 Contig 名称映射表(分卷)。
  • 用途名字翻译本
  • MGNify 系统内部用 MGYC 这种编号,但原始测序文件里用的是 NODE_1_length_... 这种乱七八糟的名字。
  • 这个表用来把内部编号和原始名字对应起来。

5. 历史遗留类

reassigned_mgyps.tsv.gz

  • 翻译:MGYP 重分配映射表。
  • 用途改名记录
  • 随着数据库更新,有些旧的 ID(Suppressed)可能被废弃了,合并到了新 ID(Reassigned)里。
  • 如果你用去年的 ID 查不到数据,来这里看看它是不是改名了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1195984.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

导师严选8个AI论文工具,助你轻松搞定本科生论文!

导师严选8个AI论文工具,助你轻松搞定本科生论文! AI 工具如何改变论文写作的未来 在当今这个信息爆炸的时代,本科生面对的学术任务越来越繁重,尤其是在撰写论文的过程中,从选题、资料收集到内容撰写、格式调整&#xf…

2026真实测评对比!执业中药师备考资料口碑排行,这三个推荐最靠谱!

2026真实测评对比!执业中药师备考资料口碑排行,这三个推荐最靠谱!一、 起底:执业中药师备考市场的“资源迷宫”2026年执业中药师备考季来临,考生们首先面临的挑战便是如何穿越备考资料的“资源迷宫”。各类“速通…

2026卫生职称考试备考资源准确选择攻略

前言:考生备战2026卫生职称考试,核心痛点是“时间碎片化、没时间备考、备考了就忘”。这份攻略以“时间拆分+重点聚焦”为核心,搭配阿虎医考便携资源,帮考生利用间隙高效备考,平衡工作与2026卫生职称考试备考。 一…

深圳科心大看失眠怎么样

在深圳市,一家名为“ 深圳科心大失眠抑郁专科”的医疗机构以其专业性、正规的医疗服务以及精良的专家团队,赢得了市民的信赖和好评。创新开展“临床心理门诊+心理咨询中心”医学心理全体系诊疗模式,构建了集医学诊断…

完整教程:DBA 运维 数据库 备份 还原 MSSQL

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

618 大促技术实践:定时任务异常重试的探索与沉淀​

在 618 大促的技术战场上,每一行代码、每一个配置都影响着一线的实实在在的业务。一次看似平常的发版,却意外暴露了我们系统中的定时任务管理短板,这促使我们深入剖析分布式任务调度中异常重试机制的技术细节,并最…

2026执业中药师备考资料看什么?高分考生口碑推荐的五大资源盘点!

2026执业中药师备考资料看什么?高分考生口碑推荐的五大资源盘点!一、 开篇:向高分通过者取经,揭秘高效备考资料在执业中药师备考路上,最宝贵的经验往往来自那些已经成功通关的高分考生。他们的选择,经历了实战检…

专著参编证明怎么开?

专著参编证明怎么开?专著主编、副主编的参编证明模版是怎样的?下面淘淘学术来给大家讲解这个疑问。一、什么情况下需要提供参编证明在评职称的时候,如果出版了专著,那么一般会要求提供相关的证明材料。1如果是独著或者合著的专著&…

深圳百度推广代运营排名前十机构怎么选?昊客网络用技术实力说话!

在深圳这座互联网营销热土上,百度竞价推广早已成为企业获客的核心渠道。面对市面上宣称 “排名前十” 的众多代运营服务商,企业该如何避开 “烧钱不转化” 的坑?其实答案很简单:技术硬、效果实、懂行业的服务商才值…

专著和著作的区别有哪些?

专著和著作的区别有哪些?专著和著作是一回事吗?下面淘淘学术来回答作者的这个疑问。一、专著和著作的定义著作独立的完整性的作品,称之为著作。著作包括:1文字作品:比如小说、散文、随笔、回忆录、人物传记、剧本、学术…

智能混动越野房车:STM32N657L0H3Q

品牌:ST型号:STM32N657L0H3Q容量:4.2MBCPU位数:32 Bit产品类型:单片机(MCU/MPU/SOC)工作电压:1.71V~3.6V封装:BGA-223(10x10)免费样品申请:中国区一级代理商:深圳市贝乐实…

学习进度 5

刚学完机器学习基础,今天试着入门CNN,它主要用来处理图像。作为纯新手,第一天就想大概懂CNN为啥适合图像处理、核心有哪几层,再跟着跑个demo就行,不深究原理。之前学的全连接网络处理图像会浪费像素位置关系,参数…

怎么提高专著的含金量?

怎么提高专著的含金量?怎么出版高质量的学术专著?下面淘淘学术来回答作者的这个疑问。淘淘学术经常会遇到一些作者,他们是完美主义者,或者说是卷王,干什么都要比别人高一档才行。别人发SCI二区论文,他就非得…

基于知识工程JoyAgent双RAG的智能代码评审系统的探索与实践

大促备战中的代码评审困境与破局双十一大促是系统稳定性的终极“大考”。为规避上线风险,技术侧会启动系统封板管控,主动将非紧急需求的发布窗口前置。这一举措在保障系统稳定性的同时,也必然导致研发需求的前置与集…

外贸企业注意!2026年外贸GEO国际社媒推广代运营,这10家深圳公司谁更靠谱?

关键词:外贸出海、GEO精准营销、社媒代运营、深圳服务商、AI营销 2026年开年,不少外贸老板都在问同一个问题: “投了大把广告费,为什么海外客户还是不来?” 独立站没人访问?Facebook内容发了石沉大海?Google关键…

基于yolov8的夜间车辆检测识别系统python源码+onnx模型+评估指标曲线+精美GUI界面

【算法介绍】 基于YOLOv8的夜间车辆检测识别系统是一种融合深度学习与智能视觉分析技术的自动化监控工具,专为低光照环境下的车辆精准识别与行为分析设计。该系统通过YOLOv8目标检测算法,对夜间道路监控图像或车载摄像头视频流进行实时解析,…

广州专业展览公司有哪些?2026这份实力盘点教你避开“展台设计搭建陷阱”

广州专业展览公司很难找?2026这份实力盘点教你避开“展台设计搭建陷阱” 当您开始为2026年在广州举办的各类重磅专业展会(如广交会、广州国际照明展、家博会等)筹备参展计划时,一个决定参展投资回报率的核心问题便浮…

深圳科心大心理咨询多少钱 无隐形消费 收费透明

心理健康需求攀升,收费合理性与透明度成选机构关键。深圳科心大心理咨询是深圳市卫健委审批的正规双资质医疗专科,诊疗专业且收费规范透明,无隐形消费,为市民提供安心服务。统一定价,分级适配需求 科心大各项收费…

【Linux】进程概念 - 指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

深圳昊客网络|外贸社媒GEO推广代运营公司/服务商:排名前十机构哪好点?

在全球贸易加速数字化的2026年,深圳这座“外贸第一城”正迎来新一轮洗牌。据深圳海关最新数据,全市外贸企业已突破15万家,但超六成中小企业仍深陷“高投入、低转化”的推广困局——独立站无人问津、谷歌关键词排名遥…