转录组分析（五）：测序数据批量下载（RNA-Seq）

准备数据

（一）测序数据（.fastq）：测序公司数据或从数据库下载

（二）数据信息表（sample.txt）：每一个样本名称、所属分组、存储路径

（三）参考基因组序列（genome.fasta）、基因注释（genes.gtf）、蛋白序列（proteins.fasta）

一、下载测序数据（RNA-Seq）

SRA数据库：用于存储高通量测序数据（二代/三代）的数据库

1. 生成下载列表（SRR号）

（1）选择列表：send to→Run Selector→Go

（2）→Accession List

（3）→得到SRR_Acc_List.txt

2. 批量下载

# 1.安装下载工具。从https://ftp-trace.ncbi.nih.gov/sra/sdk/中选择历史版本
wget https://ftp-trace.ncbi.nih.gov/sra/sdk/3.0.0/
tar -xvf sratoolkit.3.0.0-centos_linux64.tar.gz
cd sratoolkit.3.0.0-centos_linux64/bin
./vdb-config --interactive                     //配置

# 2.下载SRA文件（prefetch）、转换（fastq-dump）
prefetch SRR2176381                      //单个下载
fastq-dump --split-3 SRR2176381.sra      //将SRA文件转换为fastq

awk '{print "prefetch "$1 " &"}' SRR_Acc_List.txt >download.sh    //批量下载。加&放后台，并行下载
sh download.sh
#编写脚本批量转换
#!/bin/sh                    //指定使用 /bin/sh 作为脚本解释器
for i in *sra                //循环：遍历当前目录下所有以 ".sra" 结尾的文件
do                           //循环体开始
echo $i                      //打印当前正在处理的 SRA 文件名（便于查看进度）
fastq-dump --split-files $i  //使用 fastq-dump 工具转换 SRA 文件
done                         //循环结束

# 3.或者直接下载并转换
awk '{print "fastq-dump --split-3 --gzip "$1" -O /data1/home/Chennan01/RNA-Seq/data"}' SRR_Acc_List.txt >dl.sh
//fastq-dump是NCBI SRA工具包中的命令，用于下载或提取测序数据。
//--split-3：将配对端测序数据分割为两个独立的fastq文件（对应左右端读取）。
//--gzip：输出 gz 格式的压缩文件，以节省空间。

posted on 2025-12-15 02:40 asaca_r 阅读(11) 评论(0) 收藏举报

刷新页面返回顶部

转录组分析（五）：测序数据批量下载（RNA-Seq）

准备数据

一、下载测序数据（RNA-Seq）

导航

公告