Nature Genetics | CHOIR:基于统计推断的单细胞聚类新方法,精准识别细胞类型与状态
关键词
单细胞数据、聚类分析、CHOIR算法、细胞类型、生物异质性
摘要总结
这篇文章是2025年4月发表在《Nature Genetics》杂志上的一篇研究,标题为“CHOIR improves significance-based detection of cell types and states from single-cell data”。文章通过结合随机森林分类器与置换检验的层次聚类框架,提出了一种名为CHOIR的新算法,解决了单细胞数据分析中过聚类(overclustering)与欠聚类(underclustering)的难题。这对于提高细胞类型和状态检测的可靠性、减少人工干预具有重要意义。
研究背景
单细胞技术为解析细胞异质性提供了可能,但现有聚类方法(如Louvain、Leiden)依赖用户参数调整,易受噪声影响,难以同时识别丰度差异极大的罕见与常见细胞群体。此外,传统方法缺乏统计显著性检验,导致结果主观性强且不可复现。
研究分析
CHOIR算法的核心在于通过统计显著性阈值来确定聚类结果的可靠性。具体来说,CHOIR首先生成一个层次聚类树,然后通过排列测试评估每个分支的显著性,最终确定最终的聚类结果。该算法能够处理多种单细胞数据类型,包括RNA测序、ATAC测序、空间转录组学和多组学数据。通过在模拟和真实数据集上的广泛测试,CHOIR在准确性、鲁棒性和可扩展性方面均优于现有的15种聚类方法。
研究结果
-
模拟数据测试:在230个模拟数据集中,CHOIR的调整兰德指数(Adjusted Rand Index)和簇数量准确性均优于15种现有方法。
-
真实数据验证:
-
在包含190种癌细胞系的数据中,CHOIR唯一避免欠聚类,正确区分所有细胞系,并检测到增殖状态差异。
-
多模态CITE-seq数据中,CHOIR鉴定的RNA簇在蛋白质表达上均显示显著差异,避免过聚类。
-
空间转录组数据中,CHOIR识别出心脏内皮细胞、丘脑神经元等解剖定位明确的细胞类型,且空间分布验证了其生物学意义。
-
-
大规模数据扩展性:成功应用于330万细胞的人脑单核RNA数据集,识别1,302个保守簇。
亮点与局限
亮点:
-
CHOIR通过统计显著性测试避免了过聚类和欠聚类的问题。
-
默认参数在多种场景下表现优异,减少人工调参需求。
局限:
-
CHOIR的计算时间可能比一些简单的聚类方法长,尤其是在处理大型数据集时。
-
对于低读深度的数据集,CHOIR可能会表现出保守性,导致欠聚类。
公开数据
-
模拟数据与代码:Zenodo(https://doi.org/10.5281/zenodo.14641222)
-
CHOIR软件包:GitHub(https://github.com/corceslab/CHOIR)
-
复现分析代码:Zenodo(https://zenodo.org/records/14740782)
本文来自博客园,作者:橙子牛奶糖(陈文燕),转载请注明原文链接:https://www.cnblogs.com/chenwenyan/p/18819574