转录组分析(七):数据准备——参考基因组、基因注释、gtf格式转换(gffread)

三、下载参考基因组

常用参考基因组数据库:

Ensembl的使用

(1)选择最新的release image

(2)fasta/ image

(3)选择物种image

(4)选择数据 image

1. 基因组下载

人的基因组序列image

  • 未知所属染色体的基因:Homo_sapiens.GRCh38.dna.nonchromosomal.fa.gzimage
  • 全基因组的两个版本:primary_assembly​(多数分析使用)、toplevel
    image
  • 替换重复序列(一般不用,用完整的)。
    rm(Repeat-Masked)(重复序列屏蔽):重复序列小写、非重复序列大写
    image
    sm(Separate Molecules)(独立分子):从主序列中分离出来的特定序列集合。需要专门研究替代单倍型,或者您只需要某一条特定染色体的序列时,才需要下载这些文件。
    image

2. 基因注释下载

gff→gff2→gff3格式:人读友好,机器不方便

gtf格式:推荐

  • 预测,未实验验证:abinitio
  • 染色体基因:chr(一般下载这个)
  • 未在染色体基因:chr_patch_hapl

image

gff格式

第一行:基因

  1. 序列ID:染色体编号/contig编号
  2. 注释来源(预测程序/数据库):maker
  3. 序列类型:gene
  4. 起始位置:2652107
  5. 结束位置:2657465
  6. 得分:没有得分用“.”表示
  7. 链:-(负链)、+(正链)、.(链不确定或无关)
  8. 相位:仅对CDS特征有效,表示起始密码子的相位,可以是0、1、2。0表示该特征起始于密码子的第一个碱基,1表示第二个碱基,2表示第三个碱基。对于非CDS特征,用"."表示。
  9. 属性:以键值对的形式提供特征的额外信息,键值对之间用分号分隔。基因编号:HF00001
    ID:特征的唯一标识符。
    Name:特征的可读名称,不一定唯一。
    Parent:表示父特征的ID,用于建立特征之间的层次关系。例如,一个exon的Parent可能是其所在的mRNA。
    其他自定义键,如Note、Dbxref等。

第二行:mRNA可变剪接

  • mRNA编号:HF00001-RA

image

3. gff3转换为gtf

gffread -T HFTH1.gene.gff3 -o applegene.gtf
//gffread安装到官网下载,解压,添加环境变量
//不支持.gz格式,要解压成.gff3

gtf格式:无gene行,无parent信息,直接指明转录本所属mRNA、基因ID

image

posted @ 2025-12-20 20:10  asaca_r  阅读(5)  评论(0)    收藏  举报