DNA motif数据库 | DBcorrDB | 2022 SCENIC+ motif collection

 

2023年08月28日

从我第一次接触motif分析开始,就意识到motif数据库的不完善,那么多的已知的TF,有较为明确motif的却不到一半,已知的部分质量也不高。

而motif其实至关重要,它是Protein与DNA互作的pattern和证据,蛋白与DNA的互作也决定了基因的转录,染色质的表观调控,也是疾病机制的核心环节,那我们怎么能容忍motif的不完美呢?如果连它都不可靠,那我又怎么愿意去相信我predict出来的结果呢?

但是,一款数据库横空出世:

2022 SCENIC+ motif collection

收录了主流数据库的motif,做了非常详细的注释,算是目前最为全面丰富详细的motif数据库了。

 

目前我们有这么丰富的表观数据,里面包含了丰富的motif调控规律,所以是完全可以拿来做motif QC的,单细胞的数据更是可以拿motif来大做文章。

有了高质量的motif,一些无偏的genome wide的分析就变为可行了,比如可以用来预测eGRN。

 


 

一个核心的矛盾就是有motif的TF只占我们知道TF的一半不到,那自然在做分析的时候,很多motif就被忽略了,我在想能不能构建一个de novo的DNA motif数据库,在分析数据时我们还能有另外一个选项。

 

必看综述:An algorithmic perspective of de novo cis-regulatory motif finding based on ChIP-seq data - Qin Ma 

 

DNA motif databases and their uses

目前的金标准数据库:

  • TRANSFAC
  • JASPAR【CORE collection】
  • HOCOMOCO
  • CIS-BP
  • DBcorrDB 【我用的罕见的EZH2和HDAC就是这里下载的】

TFBS鉴定工具:

  • MEME
  • HOMER

TFBS数据库:

  • TFBSshape
  • RSAT
  • MEME
  • i-cisTarget 

 

这篇综述对motif有关的分析总结得比较到位:Integrating Peak Colocalization and Motif Enrichment Analysis for the Discovery of Genome-Wide Regulatory Modules and Transcription Factor Recruitment Rules

  • Peak Colocalization【两个peak非常接近,且有不同的TF motif binding】
  • Motif Enrichment Analysis 【分三种层面的motif分析:全局、局部、具体到单peak】

 

能不能找到对应TF的DNA-binding domains (DBDs),针对性的设计gRNA或者药物。important mutations in DBD in cancer.

TF binding sites (TFBSs),Genome-wide identification of TFBSs,the peaks appear in at least two independent datasets

classify TFs into structural families

position frequency matrices (PFMs)

position weigth matrices (PWMs)

MCB 182 Lecture 7.6 - Position weight matrices, sequence logos

 

in vitro assays

  • SELEX
  • protein binding microarrays
  • ChIP-based experiments

 

orthogonal supporting evidence【词汇很拗口,其实就是已被重复严重过的数据】

 

HT-SELEX, Using HT-SELEX to infer TF binding models: comparison to PBM and an... - Yaron Orenstein - ISMB 2014

PBMs,

ChIP-seq and DAP-seq experiments

data sourced from CistromeDB, ReMap, GTRD, ChIP-atlas and ModERN

 

the TF DBD class and family (following the TFClass classification (2)),

the TF UniProt ID (37), and

links to the TFBSshape (24,25),

ReMap (32,33) and

UniBind (38) databases

 

non-redundant PFMs

novel transcription factor flexible models (TFFMs)

hierarchical clustering of TF-binding profiles

 

代码细节:

JASPAR 2020: update of the open-access database of transcription factor binding profiles

 

An algorithmic perspective of de novo cis-regulatory motif finding based on ChIP-seq data - NAR

Cancer Cell Line Encyclopedia (CCLE) 

 

posted @ 2022-12-18 05:08  Life·Intelligence  阅读(286)  评论(0编辑  收藏  举报
TOP