多组学分析及可视化R包

最近打算开始写一个多组学(包括宏基因组/16S/转录组/蛋白组/代谢组)关联分析的R包,避免重复造轮子,在开始之前随便在网上调研了下目前已有的R包工具,部分罗列如下:

1. mixOmics

应该是在多组学领域知名度最高的一个R包,有专门的团队,做了十余年了,引用量也比较高。

官网:http://mixomics.org/
文章:mixOmics: An R package for ‘omics feature selection and multiple data integration
Github:https://github.com/mixOmicsTeam/mixOmics
Bookdown:https://mixomicsteam.github.io/Bookdown/

特点:

  • 组学数据广,基因/转录/蛋白/代谢都有涉及(是我的榜样);
  • 独特的多变量降维分析和可视化方法(我统计没学好,所以不做太多统计方法,重点在于可视化,包括多种关联角度的展示方式)。

主要内容:
统计方法:PCA/IPCA/CCA/PLS/PLS-DA/MixMC/MINT/DIABLO
可视化:2D和3D散点图/相关性网络/聚类/相关性圈图/箭头图/DIABLO圈图/载荷图

此外,这个包还自带了不少demo数据,具体可看官方文档。

image.png

2. tRanslatome

2014年就发表了,好在一直都有维护。
文章:tRanslatome: an R/Bioconductor package to portray translational control
Bioconductor:https://bioconductor.org/packages/release/bioc/html/tRanslatome.html
作者博客:http://www.mybiosoftware.com/tag/translatome
Github:https://github.com/tomateba/tRanslatome(五年前的源码)

特点:

  • 组学:主要是针对基因表达量的关联,包括转录组、翻译组和蛋白组;
  • 统计方法:Rank Product, Translational Efficiency, t-test, Limma, ANOTA, DESeq, edgeR
  • 可视化:scatterplots, histograms, MA plots, standard deviation (SD) plots, coefficient of variation (CV) plots

image.png

3. OmicsARules

最近新出的一个R包,创建了一种新的关联方法。

文章:OmicsARules: a R package for integration of multi-omics datasets via association rules mining
Github:https://github.com/BioinformaticsSTU/OmicsARules

特点:

  • 主要针对基因组和转录组数据,包括基因突变位点和非编码RNA;
  • 发明一种Lamda3的度量方法创建关联规则,可视化不是重点。

image.png

4. iCluster / iClusterPlus

十年前开发的iCluster算法(联合潜在变量模型),针对癌症数据多组学聚类。去年的时候又开发了一个新的iClusterPlus包,做了一些升级。

文章1:Integrative clustering of multiple genomic data types using a joint latent variable model with application to breast and lung cancer subtype analysis
Github:https://github.com/cran/iCluster
Bioconductor:https://bioconductor.org/packages/release/bioc/html/iClusterPlus.html
文章2:A fully Bayesian latent variable model for integrative clustering analysis of multi-type omics data
image.png

这种基于模型算法的工具我只能望洋兴叹,会用就不错了。

5. integrOmics

十多年的工具,虽然当年发了Bioinformatics,后面没有维护更新,废了。

文章:integrOmics: an R package to unravel relationships between two omics datasets
Github:https://github.com/cran/integrOmics

6. moCluster

这也是一种算法,和icluster类似,主要整合数据聚类,用于细胞或疾病分子分型等。应用场景相对比较单一。

7. MCIA

这个包又可称omicade4: Multiple co-inertia analysis of omics datasets,即多元协惯量分析。一种多元统计分析方法,类似于PCA的展示吧,比较有限。

Bioconductor:http://bioconductor.org/packages/release/bioc/html/omicade4.html
Github:https://github.com/aedin/omicade4

8. 其他

其他还有不少R包做组学数据整合,或是基于新的算法,或是仅针对基因突变和基因表达关系等方面进行关联,相对而言比较冷门,如:

  • CNAmet
  • PLRS
  • NuChart
  • MOO
  • Mergeeomics(这个包主要做GWAS/TWAS/EWAS/eQTL等,有点意思)

除了以上常用的R包,更多的多组学工具和方法可参考这一篇综述:https://jme.bioscientifica.com/view/journals/jme/62/1/JME-18-0055.xml

posted @ 2020-03-30 13:01  生物信息与育种  阅读(7720)  评论(0编辑  收藏  举报