Geneformer 关于上下文感知和批次处理的实验

这段话详细描述了Geneformer模型如何处理单细胞转录组数据,并展示了其在不同实验和应用中的表现和优势。以下是逐段解释:

  1. Embedding of Genes: 对于每个输入的单细胞转录组数据,Geneformer模型将每个基因嵌入到256维空间中,这些嵌入表示基因在特定细胞环境中的特征。

  2. Testing for Technical Artefacts: 我们首先测试了预训练的Geneformer的基因嵌入是否受到常见的批次依赖技术伪影的影响。发现基因嵌入对测序平台、保存方法和个体患者的变异性具有鲁棒性,但基因嵌入依赖于细胞中其他基因的表达背景,显示出Geneformer的上下文感知能力。

  3. In Silico Reprogramming: 当我们通过在其排名值编码前面人工添加OCT4、SOX2、KLF4和MYC对成纤维细胞进行模拟重编程时,转录组中剩余的基因嵌入显著向iPSC状态转变。iPSC衍生的成肌细胞的基因嵌入在通过MYOD进行模拟分化时也显示出类似的上下文感知能力。

  4. Context-Dependent Genes: 高度依赖上下文的基因(如NOTCH受体)在不同细胞类型中的嵌入变化更大,而众所周知的管家基因GAPDH则表现出较少的嵌入变异。

  5. Cell-Level Embeddings: 我们整合每个细胞中表达的基因嵌入来生成细胞级别的嵌入,这些嵌入表示单个细胞的状态特征。使用公开的主动脉瘤数据集测试时,尽管原始数据受到了患者间变异的影响,但Geneformer的细胞嵌入主要按细胞类型和表型而不是个体患者进行聚类。

  6. Fine-Tuning Impact: 鉴于预训练的Geneformer细胞嵌入对这些技术伪影具有鲁棒性,我们测试了微调是否会影响泛化能力。使用iPSC分化为心肌细胞的数据集测试时,发现微调后的Geneformer细胞嵌入主要按细胞类型聚类,并在平台集成方面比原始数据有显著改进,即使在使用ComBat或Harmony方法去除批次效应之后也是如此。

  7. Cell-Type Annotation Performance: 尽管Geneformer主要关注理解网络动态而不是细胞级别的注释,我们进一步调查了其在细胞类型注释中的表现。与从头训练的XGBoost和深度神经网络模型相比,Geneformer在各种组织中的细胞类型预测上都有提升,尤其是在细胞类型类别数量增加的复杂多分类预测应用中表现尤为出色。

总结来说,Geneformer模型通过其上下文感知能力和对技术伪影的鲁棒性,在单细胞转录组数据的处理和细胞类型预测方面展现了强大的性能和广泛的应用潜力。

posted @ 2024-06-28 00:56  wuhaoliu  阅读(60)  评论(0)    收藏  举报  来源