2018-12-26
【禁止转载】
【怪毛匠子-原创】
已知内容先行,进行去峰并标记列表(峰的情况),再做峰的挖掘
//已知基因附近的峰都需相关标记
在质量检测时进行数据预分类,再进行peakcalling的算法选择
主要步骤优缺点在下面
MACS
原理:基于动态泊松进行建模。局部波动和偏差,进行局部泊松分布
步骤:
去除冗余重复tag(二项分布p<10^-5)
d/2长度窗口移动
λlocal = max(λBG, [λ1k,] λ5k, λ10k)
特点:’d’建模,d/2标签转换;局部动态λ
优点:健壮性、高分辨率、只有一个参数获得方差和均值、没有对照组也可以、假阳性低、低富集倍数也能保持(20-90%)
缺点:
衡量标准:motif嵌入百分比,空间分辨率(峰顶到最近motif的平均距离),饱和度(依赖于富集倍数)
输出:基因坐标、p-value、FDR、富集倍数、峰
OccuPeak
原理:利用低频tag,给背景建模
步骤:片段重建3'端延长到原始长度,排除 log(ER)>50,双峰距离的中值作为平均DNA片段长度,两条链的tag会被合并,合并后确认peak
特点:无需对照组control
优点:
缺点:
ChIPSeq Peak Finder
原理:
步骤:
特点:
优点:
缺点:
FindPeaks 老
QuEST 老
目前存在着Galaxy[10], GenePattern[11], GenomeQuest, UCSC, DNAnexus等几种生物分析平台,这些平台基于web网页实现,具有对于不同操作系统的兼容性,然而一些局限性依然存在,比如过去通过编写脚本可以快速实现的功能,使用平台上的标准工具包完成就比较繁琐。但无论如何,这些平台从不同程度上提供了实现工具标准化的可能性。
名称 原理
MACS local Poisson
CSAR Poisson
BayesPeak 隐马尔科夫模型(机器建模技术)
CisGenome negative binomial
ZINBA zero-inflated negative binomial
HPeak 隐马尔科夫模型(机器建模技术)
PeakSplitter 在更广区域中的替代峰寻找极大
GPS 在给定候选区域建立 附件同型的卷积分布概率模型
polyaPeak、NarrowPeaks R:分析峰形状进行排名,缩小峰列表
SIPeS 利用累积层数计算可信度(优于富集倍数)
DBChIP/MAnorm 定量识别交叠峰
Nano-ChIP-seq 少数样本即可的
OccuPeak 内部背景模型