11.8组会
肿瘤亚克隆重建算法测试:
https://news.bioon.com/article/c5e082985598.html
https://zhuanlan.zhihu.com/p/491321890
肿瘤亚克隆指源于同一肿瘤中共同祖细胞、遗传特性各异的细胞亚群,它们在肿瘤的发展进程中扮演着关键角色。肿瘤发生早期,正常细胞经多次驱动突变,像 KRAS、TP53 和 SMAD4 等基因的突变 ,产生具有增殖优势的祖癌细胞,进而克隆扩增形成初始肿瘤克隆,这便是肿瘤亚克隆的 “前身”。
后续,在选择、突变、遗传漂变和空间分离等因素作用下,携带优势突变的细胞不断扩张,形成多种亚克隆群体。比如,在肿瘤的生长环境里,某些细胞获得了能更好适应环境的突变,就如同在竞争中找到了 “制胜法宝”,从而不断繁殖,成为肿瘤中的一个亚克隆群体。
肿瘤的演化过程是一个复杂且多步骤的过程,涉及正常细胞通过体细胞突变(somatic mutations)的逐步积累而转变为癌细胞。这些突变受到染色质结构以及内外源性诱变压力的影响。当某些特定的突变赋予细胞选择性优势时,这些突变细胞及其后代在局部环境中不断扩展,最终形成一个共同祖先衍生的肿瘤细胞群体,称为克隆(clone),即肿瘤亚克隆的 “前身”。随着时间的推移,不同的肿瘤细胞亚群(亚克隆,subclones)由于漂变或选择性压力不断出现和消失。这些亚克隆的异质性对于理解肿瘤的发生、发展以及对治疗的反应具有重要意义。
克隆:所有肿瘤细胞的群体。亚克隆:部分肿瘤细胞的群体
克隆突变:所有肿瘤细胞拥有的突变。亚克隆突变:部分肿瘤细胞拥有的突变
为了更好地理解肿瘤的演化过程,研究人员开发了许多基于高通量测序技术的亚克隆重建算法。这些算法利用肿瘤DNA测序数据中的突变特征来推断肿瘤亚克隆的组成和演化历史。然而,不同算法在性能上存在显著差异,且对算法性能的影响因素还未被完全了解。因此,对现有亚克隆重建算法进行系统评估,以确定其准确性和适用性,显得尤为重要。
该研究旨在评估和比较现有的31种亚克隆重建算法。研究团队设计了51个模拟肿瘤,涵盖了广泛的生物学和技术参数。为了确保评估的公正性和科学性,所有算法在一个可重复的云计算架构中执行,并通过七个独立的任务进行评分。
1.子克隆是否包含父克隆突变?
是,因为突变会“遗传”给后代细胞。基因突变是DNA序列的永久性改变。一旦 DNA 被改写,这个改动会被忠实复制到子细胞中。除非发生极罕见的“反突变”(mutation reversion),即 DNA 又变回原来的样子(概率极低),否则这些突变是不会消失的。
2.亚克隆为何有进化关系?
因为细胞不断复制、变异,是一条“血脉相承”的链。细胞x可以发生多种不同的变异,产生多个不同的后代细胞\(y_1\),\(y_2\),...,\(y_m\),x所在的亚克隆在克隆进化树上就是\(y_i\)所在的亚克隆的父亲。
3.一个细胞能否属于多个亚克隆?
不能,一个细胞唯一对应一套突变。
4.亚克隆怎么划分?
两个细胞包含的突变(类型、频率/数量等)完全一致则属于同一亚克隆
纯度:样本中肿瘤细胞占所有细胞的比例
VCF文件:用于存储基因组序列中的变异信息,包括单核苷酸变异(SNV),小片段插入缺失(INDEL),拷贝数变异(CNA/CNV,两种表达可混用,前者表示个体体细胞事件,后者表示群体事件),SV(结构变异)等
SNV:参考基因组在1号染色体7845190为 C,但检测样本在同样位置为 A
INDEL:包含插入和缺失两种,小片段(1-50bp)
Insertion:参考基因组某片段为 ACTTG,但是检测样本同样位置为 ACCCTTG,插入了CC
Deletion:参考基因组某片段为 TTCGG,但是检测样本同样位置为 TTGG,缺失 C
CNV/CNA:一般指长度1KB以上的基因组大片段的拷贝数增加(重复原有的某片段,如ABCDEF->ABCDCDCDEF)或者减少(某片段缺失,如ABCDEF->ABCF),主要表现为亚显微水平的缺失和重复
SV:指基因组结构上任何中大尺度的重排事件(> 50 bp)。
CNV 是 SV 的一个子集,但 SV 还包括“结构重排”类的变异(如倒位(某段序列被“翻转”方向)、易位(不同染色体的两个片段互换位置)、插入(往序列中插入新的片段,没有重复原有区域,不属于拷贝数增加))等。CNV 是 “数量变了” —— DNA 的 copy 多了或少了;SV 是 “结构变了” —— DNA 的顺序或位置被打乱。有的事件(如大片段缺失/重复)两者同时成立。
流程概览(评分挑战设计思路):
1、模拟肿瘤数据
a.设计真实克隆结构和进化树
决定有多少个克隆/亚克隆,每个克隆对应一个树节点
决定克隆之间的父子关系(演化路径)
每个克隆有哪些突变
每个克隆在肿瘤的所有细胞中的占比
必须保证子克隆包含父克隆全部突变,突变无逻辑冲突、进化树连通且无环,等等
b.利用 BAMSurgeon 注入突变
将 ground truth (克隆结构和进化树)中定义的突变按比例注入到 normal.bam 里生成 tumor.bam
可模拟不同纯度(tumor fraction)
可模拟克隆共存和亚克隆结构
c.输出给选手的数据
tumor.bam + normal.bam
ground truth 是隐藏的,仅用于评估算法性能
2、生成可提供给选手的数据
运行 MuTect:检测肿瘤的 SNV
运行 Battenberg:检测肿瘤的 CNA 及 纯度
输出 SNV + CNA + 纯度信息
这些就是选手可见的数据
选手不知道有关亚克隆的任何直接信息,包括真实亚克隆数(肿瘤中实际存在的不同亚克隆的数量)、亚克隆之间的进化关系,哪部分突变属于哪个亚克隆等,需要进行亚克隆重建。
3、选手提交算法结果
根据可见的 SNV + CNA + 纯度信息
推测肿瘤的亚克隆结构
输出:
每个突变属于哪个亚克隆
每个亚克隆在肿瘤总体细胞中的占比(VAF 校正后的克隆频率)
亚克隆之间的进化关系(克隆树 / phylogeny)
选手通常使用贝叶斯模型或最大似然方法重建进化树
4、评分和排名
比较选手输出与隐藏的 ground truth:
突变归属准确度(mutation assignment accuracy)
克隆树拓扑准确度(phylogeny accuracy)
克隆比例估计误差(VAF/RF 等)
得到算法性能排名
参考基因组:一个“标准化”的 DNA 序列,用来作为对照。它不是某个人体细胞的 DNA,而是 整个人类种群平均的基因组序列。它有 23 条染色体(haploid),每条染色体是连续的碱基序列。在测序分析中,我们把测得的 reads 对比到参考基因组上定位变异、计算覆盖度等。只要23条原因:双倍体细胞的两条同源染色体序列大体相同(绝大多数碱基一致),统计学上用一条参考就能比对所有 reads。
BAM文件(是SAM(Sequence Alignment/Map)文件的二进制版本,两者都通常用于存储基因组测序数据)
测序:测定核酸或氨基酸等生物分子序列的技术,要分别将正常的和参考基因组序列比对以及将肿瘤的和参考基因组序列进行比对,得到两个BAM文件,“正常的”来自于肿瘤患者本人的非肿瘤组织。每个人不同,其肯定不同于参考基因组
测序要用群体/bulk测序,而不是将参考基因组和肿瘤/正常组织中的每个细胞都进行一次序列比对。bulk 测序统计“混合信息”,即随机选取的那些reads在某个位点上的碱基比例关系。
例如某个位点在 100 条 reads 中:70 条是 A,30 条是 G。
VAF(变异等位基因频率,Variant Allele Frequency) = 某突变碱基 reads 数 / 总 reads 数,表示肿瘤样本在该位点上出现该变异的频率/概率(必须指明在某个位点上的VAF)
上例中 G 的 VAF = 30 / 100 = 0.3
结论:
父克隆突变所在位点 VAF ≥ 子克隆新增突变所在位点 VAF
越早出现的突变所在位点VAF越高
越晚出现的突变所在位点VAF越低
原因:
父克隆突变出现在父克隆 + 子克隆细胞
子克隆新增突变仅出现在子克隆细胞
要把成千上万个细胞的 DNA 混在一起,然后把每条DNA都随机打碎成很多小片段(100~150bp)去测序(因为测序仪测不了原始DNA这么长的)。每条被打碎的位置完全随机。每个人体细胞贡献了46个DNA分子。
一条 read = 一条被打碎的 DNA 分子(片段),测序仪读取的是这条短片段的碱基序列。不知道read对应在参考基因组上的位置,需要定位。
定位原理:通过与参考基因组中最相似的片段匹配来定位read的位置,特异性很高。
没有相似片段怎么办?处理方法:
无法比对(unmapped read):直接标记为 unmapped
允许部分比对(soft-clipping / split-read):一部分 read 匹配参考基因组而另一部分不匹配 → 用于发现存在的较大的变异并确定变异位置及种类
降序列相似阈值比对:允许mismatches → 仍能定位,但不完全精确
| 问题 | 答案 |
|---|---|
| DNA混合在一起还能测序吗? | 可以,依然是DNA分子,只是混在同一个溶液里。 |
| 测序仪怎么处理混合的DNA? | 随机取样,测每条独立的read。 |
| “混合信号”是什么? | 来自统计所有reads的碱基比例,不是测序仪物理上测混合DNA。 |
| DNA会变成别的东西吗? | 不会,它仍然是DNA。 |
为什么只测一部分也够了?
测序技术有个概念叫测序深度(coverage):
比如测序深度 100×,意思是:
平均每个参考基因组上的位点(某个碱基处在DNA序列上的位置)有 100 条 reads 覆盖。注意是平均而不是恰好。
虽然没有测到每个细胞的DNA,但每个位点随机取样 100 条reads,
已经足够统计出不同突变在群体里的比例(VAF)。
| 逻辑 | 说明 |
|---|---|
| 每个细胞DNA都会提取吗? | 是的,但提取后混在一起,不区分来源。 |
| 测序仪是否测了所有细胞DNA? | ❌ 不是,只测了随机取样的一部分DNA分子。 |
| 为什么仍然能看到亚克隆比例? | 因为随机取样的reads数量足够大,VAF能准确反映亚克隆在群体里的比例。 |
| 核心原理 | “统计学代表性”——随机样本可以估计总体。 |
等位基因:位于一对同源染色体相同位置上,控制同一性状不同形态的基因,如A和a就可以表示一对等位基因
等位基因频率:某等位基因的数目 / 所有等位基因的总数 × 100%。
举例:假设在一个二倍体生物中,基因型AA、Aa和aa的个数分别为N1、N2和N3,则A的等位基因频率 = (2N1 + N2) / (2(N1 + N2 + N3)) × 100%。
BAMSurgeon工具:可以在一个现有的正常样本中,人工注入(spike-in)体细胞突变(可以指定想要插入的突变位点和等位基因频率也可以随机生成),生成一个“虚拟的肿瘤样本BAM文件”。本案例中通常采用“受控随机”,即在尽量真实的情况下先随机生成突变的相关指标,在此前提下评判标准就已经确定了,也可以直接参考已知的癌症基因组数据库
每个模拟肿瘤的设计包括通过BAMSurgeon工具进行模拟生成正常和肿瘤的BAM文件,并基于BAM文件,使用Genome Analysis Toolkit(GATK)的MuTect工具来识别体细胞单核苷酸变异(SNVs)并使用Battenberg工具来识别体细胞拷贝数异常(CNAs)并估计肿瘤纯度。这些数据作为输入提供给参与者,参与者通过提交各自的算法进行亚克隆重建,并对重建结果进行评分和排名。
软件:notion
从GEO数据库下载sra数据

浙公网安备 33010602011771号