OTU聚类
https://www.sohu.com/a/156302735_785442
OTU定义
OTU(Operational Taxonomic Units),即操作分类单元。通过一定的距离度量方法计算两两不同序列之间的距离度量或相似性,继而设置特定的分类阈值,获得同一阈值下的距离矩阵,进行聚类操作,形成不同的分类单元。在16S测序中,将序列按照97%的相似性进行OTU聚类。
OTU聚类的意义
高通量测序得到的序列有几千万条,对每条序列都进行物种注释的话,工作量大、耗时,而且扩增、测序等过程中出现的错误会降低结果的准确性。在扩增子测序分析过程中引入OTU,首先对相似性序列进行聚类,分成数量较少的分类单元,基于分类单元进行物种注释,不仅简化工作量,提高分析效率,而且OTU在聚类过程中会去除一些测序错误的序列,如嵌合体序列,提高分析的准确性。
OTU聚类的方法
QIIME中OTU聚类的方法有三种:de novo、closed-reference、open-reference[1]。
de novo
测序序列根据overlap的方式进行拼接,例如利用HiSeq平台PE250(pair end,测序长度2*250bp)对16S的V3-V4区(465bp左右)测序,2*250bp>465bp,根据中间overlap的序列进行拼接,聚类。
优点
无参考数据库,有overlap即可进行;所有序列都进行聚类处理。
缺点
比对数据量大,耗时。
closed-reference OTU picking
与参考数据库比对,比对上的序列留下,比对不上的序列丢弃。
优点
目标测序区域拼接没有overlap的情况,例如,对V2-V4区测序,超出测序平台的读长,拼接时没有overlap的序列;大量数据聚类时也是非常高效的;与参考数据库比对可以得到更完美详细的进化树和物种组成。
缺点
丢弃数据库以外的新物种。
open-reference OTU picking
与参考数据库比对,比对不上的序列继而进行de novo比对。
优点
所有序列都进行比对、聚类;先closed-reference聚类,然后de novo聚类,运行速度快。
缺点
除数据库以外的新的微生物多的情况下或与参考数据库比对聚类失败时,耗时比较多。

图1. OTU聚类方法示意图
优化的 open-reference OTU picking 方法
Subsampled open-reference OTU picking[2]方法是open-reference OTU picking 方法的优化版本,针对大型数据,具有高效性,如1.3billioon的16S序列,open-reference OTU picking 方法需要150d,而Subsampled open-reference OTU picking仅需要30d。Subsampled open-reference OTU picking方法通过随机抽取比对不上数据库的序列,增加参考数据库进行聚类,可并行运行,从而有效的缩短聚类的时间。具体聚类流程如下图所示:

图2. Subsampled open-reference OTU聚类的示意图
OTU聚类方法多种多样,Rideout[2]推荐使用 open-reference方法进行OTU聚类,因为open-reference高效,同时集合closed-reference 和open-reference的优点。Westcott[3]认为使用de novo方法进行OTU聚类优于比对参考序列的方法,de novo方法聚类的OTU更能真实的展现序列之间的距离。OTU聚类方法,多种多样,目前没有统一的定论,但de novo方法使用最为广泛。
参考文献
[1] Navasmolina J A, Peraltasánchez J M, González A, et al. Advancing our understanding of the human microbiome using QIIME.[J]. Methods in Enzymology, 2013, 531:371-444.
[2] Jai Ram Rideout, Yan He, Jose A. Navas-Molina, William A. Walters, Luke K. Ursell, Sean M. Gibbons, John Chase, Daniel McDonald, Antonio Gonzalez, Adam Robbins-Pianka, Jose C. Clemente, Jack A. Gilbert, Susan M. Huse, Hong-Wei Zhou, Rob Knight, J. Gregory Caporaso. Subsampled open-reference clustering creates consistent, comprehensive OTU definitions and scales to billions of sequences[J]. Peerj, 2014, 2(5):e545.
[3] Westcott S L, Schloss P D. De novo clustering methods outperform reference-based methods for assigning 16S rRNA gene sequences to operational taxonomic units[J]. Peerj, 2015, 3(12):e1487.

浙公网安备 33010602011771号