3.测序SRA数据下载与转换

一、官方下载工具Sratoolkit安装

  推荐使用conda直接安装,避免配置环境的麻烦,但sratoolkit在conda镜像中的包名为sra-tools

1 conda install -y -c bioconda sra-tools

 

二、SRA文件下载地址获取

 

1.NCBI GEO数据库下载地址

1 https://www.ncbi.nlm.nih.gov/geo/

 

 

2.输入GEO Accession(如GSE52778),点击搜索,找到测序SRA文件

 

 

 

 

 

 

3. 下载Accession List:一个txt文件包含所有的测序样本名称,均对应于上图左下角的Run

 

 

三、数据下载

  使用sratoolkit提供的prefetch工具下载,官方文档中说明prefetch能直接根据txt文件下载,但不晓得哪边出毛病报错了,自己编写循环下载,脚本如下:

 

 1 #!/bin/bash
 2 
 3 #id.txt即为下载的Accession List
 4 
 5 for i in $(cat id.txt)
 6 do
 7     echo "正在下载文件".$i
 8     prefetch $i
 9 done
10 echo "文件下载完毕!!"
11 
12 #提取下载的文件夹中的.sra文件并删除源文件夹
13 
14 pwd=$(pwd)
15 for i in $(ls)
16 do
17     new_pwd="$pwd/$i"
18     if [ -d $new_pwd ];then
19         mv $new_pwd/* $pwd
20         rm -rf $new_pwd
21     fi
22 done

 

四、数据转换

  使用sratoolkit提供的fastq-dump将下载的SRA数据转换成fastq格式

1 #!/bin/bash
2 for i in SRR*
3 do
4     fastq-dump --gzip --split-3 -O './fastq' $i
5 done

 

参数说明:

1 --gzip    生成压缩的gz格式fastq文件,以节省磁盘空间
2 -O    输出文件路径
3 --split-files    对read进行拆分,默认不对reads进行拆分, 对于单端测序(SE)没有出现问题.但是对于双端测序(PE)而言,就会把原本的两条reads合并成一个
4     --split-spot: 将双端测序分为两份,但是都放在同一个文件中
5     --split-files: 将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads直接丢弃
6     --split-3 : 将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads会单独放在一个文件夹里

 

posted @ 2022-02-18 16:54  S_梦痕  阅读(1149)  评论(0编辑  收藏  举报