scRNA-seq数据是什么？

scRNA-seq（单细胞转录组测序）是目前生物医学领域最核心的数据类型之一，而将 Transformer 应用于该数据是近年来的重磅技术突破（如 scBERT, scGPT, Geneformer 等）。

以下为你深度拆解 scRNA-seq 数据的本质，以及主流 Transformer 模型是如何针对这种数据进行“魔改”设计的。

通俗来说，scRNA-seq 是对成千上万个单个细胞进行“点名”，统计每个细胞里哪些基因在表达，以及表达了多少。

Transformer 原本是处理文本（Token 序列）的，要把它用到 scRNA-seq（数值矩阵）上，必须解决三个核心设计问题：怎么输入？长什么样？练什么任务？

这是最关键的一步：如何把一个细胞的基因表达数据变成 Transformer 能吃的“句子”？

方案 A：基因即单词 (Gene as Token) —— 主流方案
做法：将一个细胞看作一句话，细胞里表达的基因就是这句话里的单词。
难点：基因有表达量（数值），而单词没有“强度”。
解决策略：
scBERT / scGPT：采用 "Gene Token + Value Embedding"。将表达量（比如 0-100）切分成不同的区间（Bin），每个区间对应一个向量。输入 = 基因Embedding + 表达量Embedding。
Geneformer：采用 "Rank Embedding"（秩编码）。它完全扔掉具体的数值，只保留排序。一个细胞内表达量最高的基因排第一，次高的排第二。它认为排序包含了最重要的生物学信息，且能归一化批次效应。

人类有 2 万个基因，如果把所有基因都扔进 Transformer（标准长度限制通常是 512 或 1024），显存会瞬间爆炸。

模型是如何在没有人工标注的情况下学到生物知识的？

模型名称	核心架构	输入编码方式	亮点设计	适用场景
scBERT	Encoder (Performer)	基因 + 离散化表达值	使用 Performer 处理全基因组，不需截断	细胞注释、极稀疏数据挖掘
Geneformer	Encoder (BERT)	Rank (排序) 编码	不需要数值归一化，鲁棒性极强，预训练数据量极大（30M+ 细胞）	寻找致病基因、跨数据集迁移
scGPT	Decoder (GPT)	基因 + 表达值 Binning + 条件Token	支持多模态（ATAC/Protein），引入 Batch/Perturbation Token 进行条件生成	批次效应去除、多组学整合、虚拟微扰实验
scFoundation	Asymmetric Enc-Dec	基因 + 表达值	非对称设计（Encoder 处理全部基因，Decoder 重构），规模巨大（1 亿参数）	也是通用的基础模型，擅长捕捉长程依赖

posted @ 2026-01-20 00:11 ylifs 阅读(2) 评论(0) 收藏举报

刷新页面返回顶部

ylifs