ChIP-Seq分析和作用
1:ChIP-Seq数据是基因组特异性富集的序列的测序结果,包括组蛋白修饰ChIP-Seq(H3K4me3/启动子相关/narrowpeak、H3K4me1/增强子相关/narrowpeak、H3K27ac/增强子相关/broadpeak)、转录因子ChIP-Seq(CTCF/绝缘子相关/narrowpeak、pol II/转录起始/narrowpeak)、DNA富集序列(DNase-Seq/弱DNA酶消化/活性区域、MNase-Seq/强DNA酶消化/核小体不活跃区域、ATAC-Seq//前两者的结果的集合)。
通过互补染色质分析实验分析的基因组位点揭示了染色质结构的不同方面:ChIP-seq显示特异性转录因子(TF)的结合位点; DNase-seq,ATAC-seq和FAIRE-seq显示开放染色质的区域;和MNase-seq鉴定良好定位的核小体。在ChIP-seq中,特异性抗体用于直接或通过包含靶因子的复合物中的其他蛋白质提取结合至靶蛋白的DNA片段。在DNase-seq中,染色质被DNA酶I内切核酸酶轻微消化。大小选择用于富集在DNA对DNA酶I攻击高度敏感的染色质区域产生的片段(在初期会生成包含各种长度的DNA小片段,但是一般来书保留100~300bp长度的小片段建库测序)。 ATAC-seq是DNase-seq的替代方法,其使用工程改造的Tn5转座酶来切割DNA并将引物DNA序列整合到切割的基因组DNA中(即,标记)。微球菌核酸酶(MNase)是内切核酸外切酶,其连续地消化DNA直到达到阻塞(和DNA酶相比(DNase-seq),属于强切,开放的区域全部都被消化),例如核小体。在FAIRE-seq中,甲醛用于交联染色质,并且苯酚 - 氯仿用于分离剪切的DNA。
详细介绍可参考(http://www.nature.com/nrg/journal/v15/n11/fig_tab/nrg3788_F1.html)

2:ChIP-Seq数据的作用:a:构建物种的epigenome,利用chromHMM将基因组分成一个一个的区域;b:与交互数据(HiC/chia-pet)联合分析;c:和RNA-Seq联合分析(chirp-seq)。
3:ChIP-Seq数据的分析流程:
1:预处理,步骤与RNA-Seq的一致,详情见RNA-Seq分析的1、2两步。
2:比对:DNA数据比对软件用的比较多的是bwa和bowtie,bwa比对结果相较于bowtie的比对结果更加准确,但是跑得慢,bowtie正好相反。我一般是用bwa比对,很少使用bowtie比对,慢不了多少。而且方便下游分析(比如使用GATK call snv/indel,bwa的结果明显比bowtie的要好)。
bwa比对提供了两种主流的比对aln和mem,一般序列长度小于70bp选用aln比对,大于70bp的时候选用mem。
首先第一步都是根据参考基因组建索引:bwa index genome.fa
当长度小于70bp时:
针对于单端数据:bwa aln -t 4 -f file.sai genome.fa file.fastq
当长度大于70bp时:
针对于单端数据:bwa mem -t 4 genome.fa file.fastq > file.sam
library(ChIPseeker)
library(clusterProfiler)
library(GenomicFeatures)
files <- list(randA=c("/home/xyhuang/program/randomA20.peak"),randB=c("/home/xyhuang/program/randomB20.peak"))
txdb <- makeTxDbFromGFF("hg19.gtf",format="gtf")
peakAnno <- annotatePeak(files[[1]], tssRegion=c(-3000, 3000), TxDb=txdb)
pdf("randA.pdf")
plotAnnoPie(peakAnno)
dev.off()
data <- as.data.frame(peakAnno)
aa <- c(7,8,9,10,11,12)
data <- data[-aa]
write.table(data,"randA.txt",row.names=F,quote = F,sep="\t")
peakAnno <- annotatePeak(files[[2]], tssRegion=c(-3000, 3000), TxDb=txdb)
pdf("randB.pdf")
plotAnnoPie(peakAnno)
dev.off()
data <- as.data.frame(peakAnno)
aa <- c(7,8,9,10,11,12)
data <- data[-aa]
write.table(data,"randB.txt",row.names=F,quote = F,sep="\t")
6:检查peak是否富集:使用bedtools random 随机生成一组peak,然后重复步骤五,比较两个结果是否有差异,差异越大表示富集的程度越高越好。
samtools fadix genome.fa
awk '{print $1"\t"$2;}' genome.fa.fai > genome.size
bedtools random -l 100 -n 100000 -g genome.size
-l peak的宽度 -n 生成的peak数目
7:motif分析:针对与转录因子和组蛋白修饰,目前认为是蛋白结构特异性的识别基因组上的一段特异的序列,而这段序列是具有保守性的。可以用来鉴定基因组上的调控元件
motif分析主要也是两个软件homer和meme,根据注释结果,我认为meme寻找的结果更加可靠,而且meme专门为ChIP-Seq数据开发了一个meme-chip软件包。但是考虑到需要将寻找到的motif与motif库进行比较,所以一般推荐网页上做。
本地化的后续补充:
8:未完。。。。。。

浙公网安备 33010602011771号