有关MGnify
这段话主要介绍了 MGnify 数据库 2024年4月版 中蛋白质数据的来源、处理方式和文件格式。
为了让你一看就懂,我把它拆解成直译和大白话解释两部分:
1. 直译(学术版)
MGnify 蛋白质序列来自对公开宏基因组组装的分析,使用了组合基因预测工具(Prodigal 和 FragGeneScan)。每个序列都有一个 MGYP 编号。MGYP 是非冗余1 的,也就是说,完全相同的序列共用同一个编号。我们会记录序列在组装(ERZ)和重叠群(MGYC)中的具体位置,以及其所属的生物群系(Biome)。这些序列在 90% 的覆盖度和一致性阈值下进行了聚类(打包)。此外,还利用 HMMER 工具添加了 Pfam 功能注释。在文件头中,FL 代表是否全长,CR 代表是否为聚类代表。
2. 大白话解释(通俗版)
你可以把这个数据库想象成一个巨大的蛋白质“图书馆”,这段话就是它的入馆说明书:
- 来源(哪里来的?):
这些蛋白质是从大自然(比如海水、土壤、肠道)的基因数据里挖出来的,用了两个“探测器”(Prodigal 和 FragGeneScan)来找它们。 - 身份证 (MGYP):
MGYP 就是蛋白质的身份证号。为了不浪费空间,长得一模一样的蛋白质只发一张身份证,大家都用同一个号(非冗余)。 - 家庭住址 (ERZ/MGYC):
系统记录了每个蛋白质原来住在哪里(属于哪个基因拼图 ERZ,在哪个片段 MGYC 上),以及它的老家环境(Biome,比如它是来自海洋还是来自森林)。 - 分组打包 (Clustering):
为了方便管理,系统把相似度超过 90% 的蛋白质打成一个包(Cluster)。这就好比把“红苹果”和“深红苹果”放在同一个篮子里。 - 功能标签 (Pfam):
用一种算法(HMMER)给蛋白质贴上了标签,告诉你这个蛋白质大概是干什么用的。 - 文件暗号 (Fasta Header):
你在下载的文件里会看到两个标记: - FL=1:表示这个蛋白质是完整的(没缺胳膊少腿);如果是 0 就是残缺的。
- CR=1:表示它是这个小组的组长(代表序列);如果是 0 就是普通组员。
- 冗余:包含测序得到所有的序列
非冗余:相同ACGT排序序列仅保留一条并记录所有的采样环境
2. 核心关系与统计类 (Excel 表格)
mgy_assemblies.tsv.gz
- 翻译:MGYP(蛋白)与 ERZ(组装项目)的对应表。
- 用途:查户口。
- 你想知道某个蛋白质(MGYP)是在哪些测序项目(ERZ)里被找到的?查这个表。
- 它记录了“蛋白 ID”和“来源项目 ID”的关系。
mgy_biome_counts.tsv.gz
- 翻译:生态位(环境)计数统计。
- 用途:宏观统计。
- 比如:整个数据库里,“海洋”环境的数据出现了多少次,“人类肠道”环境出现了多少次。
- 它是看大环境的,不针对具体蛋白。
mgy_biomes.tsv.gz
- 翻译:蛋白与生态位的关联表。
- 用途:查成分/来源。
- 针对具体蛋白。比如 MGYP001 这个蛋白,它在“海洋”里出现了 5 次,在“土壤”里出现了 0 次。
- 如果你想研究“哪些蛋白只在肠道里有”,就用这个表。
mgy_proteins_pfam.tsv.gz
- 翻译:Pfam 功能注释表(由 HMMER 生成)。
- 用途:查功能(最重要文件之一)。
- 这堆字母组成的蛋白到底是干嘛的?是酶?是受体?还是毒素?
- 每一行告诉你:某个蛋白(MGYP)包含什么功能结构域(Pfam),以及可信度(E-value)是多少。
3. 聚类/去重类 (Cluster)
这部分是关于“把相似的蛋白归为一个小组(Cluster)”的文件。
mgy_cluster_seqs.tsv.gz
- 翻译:聚类成员列表。
- 用途:群成员名单。
- 第一列是“群主”(代表序列 ID),第二列是所有“群员”(和群主长得很像的其他蛋白 ID)。
- 你想找某一类蛋白的所有变体,就查这里。
mgy_clusters.fa.gz
- 翻译:聚类代表序列的 FASTA 文件。
- 用途:群主的证件照。
- 这里只包含每个小组中那个唯一的代表序列(Non-redundant)。
- 做分析时,通常先跑这个文件,因为它比全量文件小得多,跑得快。
mgy_clusters.tsv.gz
- 翻译:聚类统计信息表。
- 用途:群信息汇总。
- 这个群有多大?有多少个完全一模一样的序列?群主主要出现在哪种环境?整个群分布在哪些环境?
4. 序列与元数据类 (拆分文件)
mgy_counts.tsv.gz
- 翻译:MGYP 计数表。
- 用途:查热度。
- 某个蛋白(MGYP)在数据库里一共被观察到了多少次。数字越大,说明这个蛋白在自然界越常见。
mgy_proteins_N.fa.gz (那个 N 代表数字,比如 proteins_1, proteins_2...)
- 翻译:所有蛋白序列的 FASTA 文件(分卷)。
- 用途:全家福。
- 这里面是所有的蛋白质序列,不管是否重复。
- 因为数据量太大(可能有几十亿条),一个文件装不下,所以切成了很多个小文件(分卷)。
mgy_seq_metadata_N.tsv.gz
- 翻译:序列元数据映射表(分卷)。
- 用途:详细定位。
- 告诉你每个蛋白具体在基因组的哪一段(坐标、正负链)。
- 格式里的一串代码
ERZ.MGYC:start-end就是它的精确“GPS 坐标”。
mgy_contig_map_N.tsv.gz
- 翻译:MGYC(重叠群)与 Contig 名称映射表(分卷)。
- 用途:名字翻译本。
- MGNify 系统内部用
MGYC这种编号,但原始测序文件里用的是NODE_1_length_...这种乱七八糟的名字。 - 这个表用来把内部编号和原始名字对应起来。
5. 历史遗留类
reassigned_mgyps.tsv.gz
- 翻译:MGYP 重分配映射表。
- 用途:改名记录。
- 随着数据库更新,有些旧的 ID(Suppressed)可能被废弃了,合并到了新 ID(Reassigned)里。
- 如果你用去年的 ID 查不到数据,来这里看看它是不是改名了。

浙公网安备 33010602011771号