论文阅读1:QUBIC2 A novel and robust biclustering algorithm for analyses

//没更新完QAQ

文章地址:

QUBIC a bioconductor package for qualitative biclustering analysis of gene co-expression data.pdf
QUBIC2 A novel and robust biclustering algorithm for analyses and interpretation of large-scale RNA-Seq data

名词注释

  • functional gene modules (FGMs) 基因功能模块
    每个模块都被定义为特定基因集上的高度结构化表达模式
  • transcriptional regulatory signals (TRSs) 转录调控信号
  • single-cell RNA-seq scRNA-seq

QUBIC

introduction

在大型转录组数据集中,双聚类广泛用于所有条件的子集下识别共表达基因。QUBIC程序被认为是生物数据解释中最有效的双聚类方法之一。但是,它的可用性仅限于C实现和低吞吐量web接口。

该文介绍了一种QUBIC的R实现,它有两个独特的特点:

  1. 通过重构和优化QUBIC的源代码C代码,平均提高了82%的效率;
    该算法功能包括:具有数据分析功能、数据离散化、查询双聚类、双聚类扩展、双聚类比较比较、热图可视化分析等功能

cell poputation
|(1)
mrna expression patterns
|(2)
identify co-expressed(or con-regulated) genes

在(1)中进行DNA微阵列 DNA mircroarrays,测量大量基因的表达水平

DNA mircroarrays
DNA微阵列(通常也称为基因芯片、DNA芯片或生物芯片)是附着在固体表面的微型DNA点的集合。科学家使用DNA微阵列同时测量大量基因的表达水平。

在(2)中进行聚类 biclustering,双聚类、协聚类(co-clustering)或双模式聚类是数据挖掘技术,它是允许同时对矩阵的行和列进行聚类。

多种类型的聚类
a)具有恒定值的双聚类
b)行上具有常数值的双聚类
c)列上为常数的双聚类
d)相参的双聚类(相加)
(e)相参的双聚类(相乘)


在这里插入图片描述
(图片来源于网络,作者:yang li)

key step

关键步骤表示使用定性矩阵的微阵列数据集
最重的未使用的边(作为种子)
→迭代招募新边通过一个接一个地找到这个矩阵中的所有双聚类

优点

1.优化了代码,提高了执行效率
优化了代码,提高了代码的可移植性
改变了原c代码成cpp代码,改变了许多数据结构,运用了cpp中stl替换了原c中的许多内容,显著提高了程序的效率

2.如果在某个步骤中忽略了双聚类
3.QUBIC可以通过使用其他边缘作为双聚类的种子来进行补救
4.QUBIC既能发现共同表达基因,也能发现共调控基因
5.QUBIC可以同时发现正相关基因和负相关基因
6.QUBIC可以找到一组特定基因(种子)的相关基因
7.QUBIC通过使用多个起点(种子)来摆脱局部最优的限制

缺点

总结

双聚类算法QUBIC有助于研究人员在其基因表达数据集中识别共表达基因子集, 可以很好的成为解释基因表达谱数据的一种方法

QUBIC2

借助QUBIC2算法可以有效的检测多零表达或者多低表达的RNA-SEQ数据或者是scRNA-SEQ数据

introduction

  • scRNA-seq数据具有高维性,涉及数千个基因以及大量细胞。
  • 降维和特征选择是处理高维数据的两种主要策略。
  • 由于scRNA-seq的多零表达和多低表达,为了更好处理scRNA-seq数据, 提出了QUBIC算法,而本文是在QUBIC的基础上进行改进提出QUBIC2算法。
  1. 建立左截断式的混合高斯模型的多峰性对多零表达数据的准确评估
  2. 一个快速和有效的功能性基因扩张战略模块优化使用信息分离和
  3. 严格的统计检验的重要性确定双聚类在任何有机体,包括那些没有实质性的功能注释。在各种基准数据集上,与其他五种广泛使用的算法相比,QUBIC2在检测双聚类方面的性能有了显著提高。
  4. 大肠杆菌等模拟数据。QUBIC2还展示了由微阵列、批量RNA-Seq和scRNA-Seq产生的基因表达数据QUBIC2的稳健和优越的性能可用性和实现
posted @ 2020-05-21 10:46  月光不染是非  阅读(360)  评论(0编辑  收藏  举报