单细胞数据预训练模型分类总结
🔗 总体逻辑主线:从“语言建模类比”出发,到“结构建模泛化”深化
⸻
一、【模型谱系】按方法论发展时间轴 & 研究焦点分层:
- 语言建模阶段:基因表达的语义化编码尝试
代表模型 方法特点 核心任务
scBERT 基于 Transformer,模仿 BERT 的掩码建模,使用 gene2vec + 离散表达值 细胞类型分类
Cell2Sentence 纯 NLP 式建模,表达谱转为句子,用 Word2Vec + SimCLR 对比学习 细胞嵌入建模
联系:两者均通过自然语言处理的迁移学习范式建立基因表达的“语义结构”,前者强调结构重建,后者更重嵌入语义。
⸻
- 结构建模阶段:基于自回归与提示机制建模基因表达序列
代表模型 方法特点 核心任务
scGPT 自回归 Transformer + 细胞提示机制,编码表达结构并预测表达值 多任务泛化
tGPT 添加时间戳编码,关注细胞发育序列的动态预测 细胞命运建模
联系:两者均基于 GPT 架构,从输入建模方式到表达序列生成方式相似,scGPT更通用,tGPT侧重时序建模。可视作静态 vs 动态基因序列生成建模的扩展。
⸻
- 规模驱动阶段:面向跨物种与泛数据环境的预训练策略
代表模型 方法特点 核心任务
scFoundation 超大样本预训练 + 非对称结构 + 读数增强 表达恢复、扰动预测
GeneCompass 融合生物先验,跨物种共享表示学习 跨物种迁移、调控建模
联系:两者均重视多样数据源的表征统一,但建模方式不同。scFoundation强调表达量重建的稳健性,GeneCompass强调调控信息的跨域迁移。
⸻
二、【技术维度】从三条主线串联模型发展
- 📚 输入表达形式的转化逻辑
• 离散表达 + 基因 token 嵌入(scBERT,scGPT)
• 文本化表达序列(Cell2Sentence)
• 数值表达向量 + 条件 token +时间编码(scGPT,tGPT)
• 稀疏矩阵 + 多模态嵌入 + 先验标签嵌入(scFoundation,GeneCompass)
统一表征目标:如何将稀疏、异构、非结构化的 scRNA-seq 表达谱转化为模型可理解的表示空间
- 🧠 模型主干结构选择逻辑
• Transformer(scBERT、scGPT)
• GPT式解码器(tGPT)
• Performer(稀疏注意力结构优化,scBERT)
• 非对称编码器结构(scFoundation)
• 多模态自注意力网络(GeneCompass)
发展趋势:从标准 Transformer 向结构轻量化与多源嵌入对齐演进
- 🧩 任务驱动的预训练目标设计
• 掩码表达重建(scBERT、scFoundation)
• 自回归表达预测(scGPT、tGPT)
• 对比学习嵌入匹配(Cell2Sentence)
• 生物先验约束下的目标分布对齐(GeneCompass)
融合路径:部分模型可在任务层面通过联合训练或多任务微调方式进行整合
⸻
三、【统一模型关系图构想】(可供绘图)
你可以将这些模型按以下方式放置在一个二维结构图中:
横轴:输入表达方式的抽象程度(从数值向语义转化)
纵轴:任务广度(从单一任务向多任务拓展)
↑
│ GeneCompass
│ scFoundation
│ tGPT
│ scGPT
│ Cell2Sentence
│ scBERT
└────────────────────────→
原始表达编码 → 表达语义建模

浙公网安备 33010602011771号