转录组分析(五):测序数据批量下载(RNA-Seq)

准备数据

(一)测序数据(.fastq):测序公司数据或从数据库下载

(二)数据信息表(sample.txt):每一个样本名称、所属分组、存储路径

(三)参考基因组序列(genome.fasta)、基因注释(genes.gtf)、蛋白序列(proteins.fasta)


一、下载测序数据(RNA-Seq)

SRA数据库:用于存储高通量测序数据(二代/三代)的数据库

1. 生成下载列表(SRR号)

(1)选择列表:send to→Run Selector→Go

image

(2)→Accession List

image

(3)→得到SRR_Acc_List.txt

image


2. 批量下载

# 1.安装下载工具。从https://ftp-trace.ncbi.nih.gov/sra/sdk/中选择历史版本
wget https://ftp-trace.ncbi.nih.gov/sra/sdk/3.0.0/
tar -xvf sratoolkit.3.0.0-centos_linux64.tar.gz
cd sratoolkit.3.0.0-centos_linux64/bin
./vdb-config --interactive                     //配置

# 2.下载SRA文件(prefetch)、转换(fastq-dump)
prefetch SRR2176381                      //单个下载
fastq-dump --split-3 SRR2176381.sra      //将SRA文件转换为fastq

awk '{print "prefetch "$1 " &"}' SRR_Acc_List.txt >download.sh    //批量下载。加&放后台,并行下载
sh download.sh
#编写脚本批量转换
#!/bin/sh                    //指定使用 /bin/sh 作为脚本解释器
for i in *sra                //循环:遍历当前目录下所有以 ".sra" 结尾的文件
do                           //循环体开始
echo $i                      //打印当前正在处理的 SRA 文件名(便于查看进度)
fastq-dump --split-files $i  //使用 fastq-dump 工具转换 SRA 文件
done                         //循环结束

# 3.或者直接下载并转换
awk '{print "fastq-dump --split-3 --gzip "$1" -O /data1/home/Chennan01/RNA-Seq/data"}' SRR_Acc_List.txt >dl.sh
//fastq-dump是NCBI SRA工具包中的命令,用于下载或提取测序数据。
//--split-3:将配对端测序数据分割为两个独立的fastq文件(对应左右端读取)。
//--gzip:输出 gz 格式的压缩文件,以节省空间。

 

posted on 2025-12-15 02:40  asaca_r  阅读(11)  评论(0)    收藏  举报

导航