Seurat模块分层理解学习
Seurat对象:存储数据,将原始数据、分析过程、中间结果和最终结论有机地整合在一起,确保了分析流程的标准化、可追溯和可重复。
其核心结构是一个名为 AnnotatedChip 的S4类对象,它包含多个称为 域(slots) 的组成部分。我们可以将这些域分为四大功能模块来理解:
模块一:数据核心层——存储原始与核心数据
assays(分析数据集)*
含义:这是最核心的域,存储着实际的基因表达矩阵。一个Seurat对象可以包含多个assays,例如:
RNA:存储原始的基因表达计数矩阵。
SCT:存储经过sctransform方法标准化和方差稳定化处理后的矩阵。
integrated:存储多个样本整合批处理后的矩阵。
基因矩阵是什么?有什么应用?
基因矩阵是一个巨大的表格,行代表基因,列代表单个细胞,表格中的每个数值代表某个基因在某个细胞中的表达量(例如原始转录本计数)。它是所有分析的起点。一切分析都基于此。例如,通过计算高变基因进行主成分分析(PCA),通过基因表达模式进行细胞聚类、鉴定细胞类型(寻找细胞类型特异性标记基因),以及进行差异表达分析,比较不同细胞群间哪些基因活跃程度不同。
meta.data(元数据)*
含义:一个与细胞一一对应的数据框,存储每个细胞的注释信息。每一行是一个细胞,每一列是一个特征。这是对细胞的“描述”。例如,可以包含:
技术性信息:每个细胞检测到的总基因数(nFeature_RNA)、总转录本数(nCount_RNA)、线粒体基因百分比(用于评估细胞质量)。
生物学信息:通过分析后手动或自动标注的细胞类型、细胞周期状态、样本来源、处理条件等。它类似于临床病历,用于后续的分组分析和结果展示。
模块二:分析运算层——存储计算得出的关系与模型
reductions(降维结果)
含义:存储各种降维算法的结果对象。将成千上万个基因(高维空间)的信息压缩到几个关键维度上,以便可视化。例如 pca存储主成分坐标,umap或 tsne存储二维/三维的嵌入坐标。这些坐标直接用于绘制散点图,让我们能用肉眼观察细胞的分布和聚集情况。
graphs(网络图)
含义:存储细胞之间的“关系图”。通常基于降维结果(如PCA的前几个主成分)计算得出,量化细胞间的相似性。最核心的应用是细胞聚类。例如,Seurat会构建一个共享最近邻(SNN)图,然后在此图上运行社区发现算法(如Louvain算法)来将细胞划分为不同的簇(cluster),这些簇就是初步的细胞群体。
模块三:状态与标识层——管理当前分析状态
active.assay(当前活跃数据集)*
含义:指定当前默认使用哪个assay(如 RNA, SCT)进行计算和绘图。因为对象中可能有多个处理后的矩阵,此设置告诉Seurat“现在请用这个矩阵工作”。
active.ident(当前活跃标识)*
含义:指定当前默认使用的细胞身份分类,通常来源于meta.data中的某一列(如“细胞类型”或“聚类结果”)。它决定了在绘图时细胞按什么分组上色,在差异分析时按什么分组比较。
模块四:可追溯性层——记录分析全过程(Seurat设计的精髓)
这个模块确保了分析的每一步都可被完整复现,是科研严谨性的关键。
commands(命令历史)
含义:以列表形式自动记录创建或修改该对象所执行的每一个关键函数命令及其参数。你可以随时查看这个对象是如何一步步从原始数据生成的,精确地复现整个分析流程,或与他人分享完整的分析代码。
version与 tools(版本信息)
含义:分别记录Seurat对象本身的版本和构建过程中使用的其他R软件包(如ggplot2, Matrix)的版本。不同版本的软件可能计算结果有细微差异,记录版本号可以避免因环境不同导致的结果无法复现。
images(图像存储)
含义:用于存储空间转录组学中的组织切片图像,或在某些分析中存储生成的图表对象。将可视化结果与数据对象绑定,便于结果的集中管理和汇报。

浙公网安备 33010602011771号