节目我的基因组学习1

摘自生信技能树中的 直播我的基因组分析 http://www.biotrainee.com/thread-1376-1-1.html

我的基因组(二):科研和临床分析调研

 

拿到数据后我会从数据分析的角度来详细讲解测序数据质量控制的方方面面,包括测序质量,接头,污染序列,其中会提到一些经典软件的用法,在我博客(搜索:生信菜鸟团)里面有大部分软件使用操作手册。

然后在比对阶段,我会尝试不同的参考基因组进行比对,包括hg19和hg38,尝试比较选择不同参考基因组所得到的结果有何种区别

最后重头戏就是找variation了,跟参考基因组不一样的地方,包括snv、indel、cnv、sv,分别有自己适用的软件。我会比较多个软件的结果,尽量找到可信的variation,同时也会做基本的QC,严格的结合质量值、测序深度、重复性等因素进一步过滤筛选,过滤掉假阳性。

但是跟参考基因组不一样的地方不一定就是有意义的,我还会根据一系列的数据库来注释找到variation。其中会利用到数据库数据主要有:

dbsnp147 (ncbi提供的最权威)

cgi69ExAC.vcf.gz(broadinstitute提供的外显子联盟)

Cosmic_v73.ann.vcf.gz (癌症突变信息集)

finalTCGA.vcf.gz (TCGA计划癌症相关)

1000g-ph3v5.gff.gz(千人基因组计划)

ESP6500(Variants from the Exome Sequencing Project (ESP))

还有各个国家级的基因组计划的数据(SCLP,SSM,SSI,GONL,UK10K)

三种主流注释软件我都会使用,包括VEP,ANNOVAR,snpEFF。

临床分析本质上就是关联到一系列的疾病,所以会用到各种疾病相关的数据库,包括OMIN,clinVAR,HGMD,GWAS,给出各个疾病的风险值,最后给出一些生活营养建议来预防疾病的发生。其中,大部分疾病评估是依据GWAS数据库对变异位点进行注释从而评估个体化疾病风险的,用药建议是根据PharmaGKB网站,遗传病风险则是HGMD数据库进行注释。

我的基因组(三):抽血送样测序

为什么选择30X这个标准呢,应该是有一篇文章做过梯度模拟,看看5~60X直接,对遗传变异的发现能力的增长情况如何,就是所谓的饱和度分析,而我们全基因组重测序的分析要点,就是挖掘跟参考基因组不一样的地方,而测序深度的增长伴随的就是成本的增长,根据文献(Sequencing depth and coverage: key considerations in genomic analyses - Nature Reviews (2014))及illumina的解释(Sequencing Coverage Calculation Methods for Human Whole-Genome Sequencing;Calling Sequencing SNPs)表明“平均深度达到30X的时候,可以覆盖基因组的95%”、“ This will lead to confident SNP scores and tolerates areas with somewhat lower coverage ”(有兴趣请回复“文献”查看全文)。所以,对我们来说,30X是最佳的选择,可以以最优的成本来挖掘到足够的遗传变异。

我的基因组(四):计算资源的准备

总结:一个 8线程+16G内存+1T储存空间的电脑即可,强烈建议安装linux系统!!!

云服务器跟一般公司自己的实体服务器使用起来有什么区别吗?

我的回答是木有区别,公司的实体服务器,你也是当做云在使用,也是通过putty或者xshell等ssh工具,用公司给你的IP、用户名和密码登陆进去操作而已。

还有些朋友问集群又是怎么回事,简单来说,集群就是指将很多服务器集中起来一起进行同一种服务,集群可以利用多个服务器进行并行计算从而获得很高的计算速度(具体大家可自行百度)。

进行数据处理,我们需要就要抛弃常见的桌面窗口式的电脑操作了,现在只有黑白的命令行终端(如果你喜欢你也可以换成喜欢的颜色),我们首先看看我本次准备的计算资源吧!记住3个命令:

cat /proc/cpuinfo |grep process |wc -l

free -g

df -h

分别查看 core,memory,storage,请自行保证至少要有8core+16G+1T

在linux下,你必须自己亲自安装每一个软件,还得记住你安装在了电脑的什么地方,你必须自己敲命令来调用软件,以及软件的参数(类似于菜单栏),必须自己指定该软件应该取作用于什么文件,必须自己指定文件的全路径,而不是用鼠标去选择那个文件。

软件安装在linux系统里面是非常简单的,常见的生物信息学软件就6种,分别是C源码文件perl/python/R/java 语言软件和基于系统版本的二进制可执行软件。对于我们要使用的软件,一般官网会给出多种形式的软件,优先挑选二进制可执行软件,直接解压就可以使用。

本次直播基因组会用的软件有 fastqc、Trimmomatic、bwa、samtools、picardtools、freebayes、VarScan、SnpEff、bedtools,其中所需的GATK和annovar是需要注册才能下载的,

我比较喜欢把软件安装在自己的home目录下面,你们直接复制下面的代码就可以运行的。

mkdir -p  ~/biosoft/myBin

echo 'export PATH=/home/jianmingzeng/biosoft/myBin/bin:$PATH' >>~/.bashrc

source ~/.bashrc

cd ~/biosoft

mkdir cmake &&  cd cmake

wget http://cmake.org/files/v3.3/cmake-3.3.2.tar.gz

tar xvfz cmake-3.3.2.tar.gz

cd cmake-3.3.2

./configure --prefix=/home/jianmingzeng/biosoft/myBin

make

make install

 

## Download and install bowtie

cd ~/biosoft

mkdir bowtie &&  cd bowtie

wget https://sourceforge.net/projects/bowtie-bio/files/bowtie2/2.2.9/bowtie2-2.2.9-linux-x86_64.zip

#Length: 27073243 (26M) [application/octet-stream]

#Saving to: "download"   ## I made a mistake here for downloading the bowtie2

mv download  bowtie2-2.2.9-linux-x86_64.zip

unzip bowtie2-2.2.9-linux-x86_64.zip

 

## Download and install BWA

cd ~/biosoft

mkdir bwa &&  cd bwa

#http://sourceforge.net/projects/bio-bwa/files/

wget https://sourceforge.net/projects/bio-bwa/files/bwa-0.7.15.tar.bz2

tar xvfj bwa-0.7.15.tar.bz2 # x extracts, v is verbose (details of what it is doing), f skips prompting for each individual file, and j tells it to unzip .bz2 files

cd bwa-0.7.15

make

#export PATH=$PATH:/path/to/bwa-0.7.12 # Add bwa to your PATH by editing ~/.bashrc file (or .bash_profile or .profile file)

# /path/to/ is an placeholder. Replace with real path to BWA on your machine

#source ~/.bashrc

 

## Download and install bedtools

cd ~/biosoft

mkdir bedtools &&  cd bedtools

wget https://github.com/arq5x/bedtools2/releases/download/v2.25.0/bedtools-2.25.0.tar.gz

## Length: 19581105 (19M) [application/octet-stream]

tar -zxvf bedtools-2.25.0.tar.gz

cd bedtools2

make

#~/biosoft/bedtools/bedtools2/bin/

 

## Download and install samtools

## http://samtools.sourceforge.net/

## http://www.htslib.org/doc/samtools.html

cd ~/biosoft

mkdir samtools &&  cd samtools

wget https://github.com/samtools/samtools/releases/download/1.3.1/samtools-1.3.1.tar.bz2

tar xvfj samtools-1.3.1.tar.bz2

cd samtools-1.3.1

./configure --prefix=/home/jianmingzeng/biosoft/myBin

make

make install

~/biosoft/myBin/bin/samtools --help

 

## Download and install picardtools

## https://sourceforge.net/projects/picard/

## https://github.com/broadinstitute/picard

cd ~/biosoft

mkdir picardtools &&  cd picardtools

wget http://ncu.dl.sourceforge.net/project/picard/picard-tools/1.119/picard-tools-1.119.zip

unzip picard-tools-1.119.zip

 

## Download and install freebayes

## https://github.com/ekg/freebayes

## http://clavius.bc.edu/~erik/CSHL-advanced-sequencing/freebayes-tutorial.html

cd ~/biosoft

mkdir freebayes &&  cd freebayes

## wget -O freebayes-master.zip  https://codeload.github.com/ekg/freebayes/zip/master

## unzip freebayes-master.zip

wget http://clavius.bc.edu/~erik/freebayes/freebayes-5d5b8ac0.tar.gz

tar xzvf freebayes-5d5b8ac0.tar.gz

cd freebayes

make

~/biosoft/freebayes/freebayes/bin/freebayes

 

 

cd ~/biosoft

## https://sourceforge.net/projects/varscan/files/

## http://varscan.sourceforge.net/index.html

mkdir VarScan  &&  cd VarScan

wget https://sourceforge.net/projects/varscan/files/VarScan.v2.3.9.jar

 

cd ~/biosoft

mkdir SnpEff &&  cd SnpEff

## http://snpeff.sourceforge.net/

## http://snpeff.sourceforge.net/SnpSift.html

## http://snpeff.sourceforge.net/SnpEff_manual.html

wget http://sourceforge.net/projects/snpeff/files/snpEff_latest_core.zip

## java -jar snpEff.jar download GRCh37.75

## java -Xmx4G -jar snpEff.jar -i vcf -o vcf GRCh37.75 example.vcf > example_snpeff.vcf

unzip snpEff_latest_core.zip

 

## https://github.com/najoshi/sickle  (未)

cd ~/biosoft

mkdir sickle && cd sickle

wget https://codeload.github.com/najoshi/sickle/zip/master -O sickle.zip

unzip sickle.zip

cd sickle-master

make

~/biosoft/sickle/sickle-master/sickle -h

 

cd ~/biosoft

## http://www.usadellab.org/cms/?page=trimmomatic

## http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/TrimmomaticManual_V0.32.pdf

mkdir Trimmomatic && cd Trimmomatic

wget http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.36.zip

unzip Trimmomatic-0.36.zip

java -jar ~/biosoft/Trimmomatic/Trimmomatic-0.36/trimmomatic-0.36.jar -h

 

posted @ 2017-07-29 15:48  number_5  阅读(234)  评论(0)    收藏  举报