Nature Genetics | CHOIR：基于统计推断的单细胞聚类新方法，精准识别细胞类型与状态

关键词

单细胞数据、聚类分析、CHOIR算法、细胞类型、生物异质性

摘要总结

这篇文章是2025年4月发表在《Nature Genetics》杂志上的一篇研究，标题为“CHOIR improves significance-based detection of cell types and states from single-cell data”。文章通过结合随机森林分类器与置换检验的层次聚类框架，提出了一种名为CHOIR的新算法，解决了单细胞数据分析中过聚类（overclustering）与欠聚类（underclustering）的难题。这对于提高细胞类型和状态检测的可靠性、减少人工干预具有重要意义。

研究背景

单细胞技术为解析细胞异质性提供了可能，但现有聚类方法（如Louvain、Leiden）依赖用户参数调整，易受噪声影响，难以同时识别丰度差异极大的罕见与常见细胞群体。此外，传统方法缺乏统计显著性检验，导致结果主观性强且不可复现。

研究分析

CHOIR算法的核心在于通过统计显著性阈值来确定聚类结果的可靠性。具体来说，CHOIR首先生成一个层次聚类树，然后通过排列测试评估每个分支的显著性，最终确定最终的聚类结果。该算法能够处理多种单细胞数据类型，包括RNA测序、ATAC测序、空间转录组学和多组学数据。通过在模拟和真实数据集上的广泛测试，CHOIR在准确性、鲁棒性和可扩展性方面均优于现有的15种聚类方法。

研究结果

模拟数据测试：在230个模拟数据集中，CHOIR的调整兰德指数（Adjusted Rand Index）和簇数量准确性均优于15种现有方法。
真实数据验证：
- 在包含190种癌细胞系的数据中，CHOIR唯一避免欠聚类，正确区分所有细胞系，并检测到增殖状态差异。
- 多模态CITE-seq数据中，CHOIR鉴定的RNA簇在蛋白质表达上均显示显著差异，避免过聚类。
- 空间转录组数据中，CHOIR识别出心脏内皮细胞、丘脑神经元等解剖定位明确的细胞类型，且空间分布验证了其生物学意义。
大规模数据扩展性：成功应用于330万细胞的人脑单核RNA数据集，识别1,302个保守簇。

亮点与局限

亮点：

CHOIR通过统计显著性测试避免了过聚类和欠聚类的问题。
默认参数在多种场景下表现优异，减少人工调参需求。

局限：

CHOIR的计算时间可能比一些简单的聚类方法长，尤其是在处理大型数据集时。
对于低读深度的数据集，CHOIR可能会表现出保守性，导致欠聚类。

公开数据

模拟数据与代码：Zenodo（https://doi.org/10.5281/zenodo.14641222）
CHOIR软件包：GitHub（https://github.com/corceslab/CHOIR）
复现分析代码：Zenodo（https://zenodo.org/records/14740782）

posted @ 2025-04-14 20:04 橙子牛奶糖阅读(300) 评论(0) 收藏举报

刷新页面返回顶部

橙子牛奶糖

简介：陈文燕，本科暨南大学，中科院博士。欢迎关注微信公众号“bio生物信息”，进群与众多生信同行一起讨论学术问题。私信不回，有问题请在文章下面评论。

Nature Genetics | CHOIR：基于统计推断的单细胞聚类新方法，精准识别细胞类型与状态

关键词

摘要总结

研究背景

研究分析

研究结果

亮点与局限

公开数据

公告

橙子牛奶糖

简介：陈文燕，本科暨南大学，中科院博士。 欢迎关注微信公众号“bio生物信息”，进群与众多生信同行一起讨论学术问题。私信不回，有问题请在文章下面评论。

Nature Genetics | CHOIR：基于统计推断的单细胞聚类新方法，精准识别细胞类型与状态

关键词

摘要总结

研究背景

研究分析

研究结果

亮点与局限

公开数据

公告

简介：陈文燕，本科暨南大学，中科院博士。欢迎关注微信公众号“bio生物信息”，进群与众多生信同行一起讨论学术问题。私信不回，有问题请在文章下面评论。