Nature Genetics | CHOIR:基于统计推断的单细胞聚类新方法,精准识别细胞类型与状态

关键词

单细胞数据、聚类分析、CHOIR算法、细胞类型、生物异质性

摘要总结

这篇文章是2025年4月发表在《Nature Genetics》杂志上的一篇研究,标题为“CHOIR improves significance-based detection of cell types and states from single-cell data”。文章通过结合随机森林分类器与置换检验的层次聚类框架,提出了一种名为CHOIR的新算法,解决了单细胞数据分析中过聚类(overclustering)与欠聚类(underclustering)的难题。这对于提高细胞类型和状态检测的可靠性、减少人工干预具有重要意义。


研究背景

单细胞技术为解析细胞异质性提供了可能,但现有聚类方法(如Louvain、Leiden)依赖用户参数调整,易受噪声影响,难以同时识别丰度差异极大的罕见与常见细胞群体。此外,传统方法缺乏统计显著性检验,导致结果主观性强且不可复现。


研究分析

CHOIR算法的核心在于通过统计显著性阈值来确定聚类结果的可靠性。具体来说,CHOIR首先生成一个层次聚类树,然后通过排列测试评估每个分支的显著性,最终确定最终的聚类结果。该算法能够处理多种单细胞数据类型,包括RNA测序、ATAC测序、空间转录组学和多组学数据。通过在模拟和真实数据集上的广泛测试,CHOIR在准确性、鲁棒性和可扩展性方面均优于现有的15种聚类方法。


研究结果

  1. 模拟数据测试:在230个模拟数据集中,CHOIR的调整兰德指数(Adjusted Rand Index)和簇数量准确性均优于15种现有方法。

  2. 真实数据验证

    • 在包含190种癌细胞系的数据中,CHOIR唯一避免欠聚类,正确区分所有细胞系,并检测到增殖状态差异。

    • 多模态CITE-seq数据中,CHOIR鉴定的RNA簇在蛋白质表达上均显示显著差异,避免过聚类。

    • 空间转录组数据中,CHOIR识别出心脏内皮细胞、丘脑神经元等解剖定位明确的细胞类型,且空间分布验证了其生物学意义。

  3. 大规模数据扩展性:成功应用于330万细胞的人脑单核RNA数据集,识别1,302个保守簇。


亮点与局限

亮点

  1. CHOIR通过统计显著性测试避免了过聚类和欠聚类的问题。

  2. 默认参数在多种场景下表现优异,减少人工调参需求。

局限

  1. CHOIR的计算时间可能比一些简单的聚类方法长,尤其是在处理大型数据集时。

  2. 对于低读深度的数据集,CHOIR可能会表现出保守性,导致欠聚类。


公开数据

posted @ 2025-04-14 20:04  橙子牛奶糖  阅读(245)  评论(0)    收藏  举报