11.8组会
肿瘤亚克隆重建算法测试:
https://news.bioon.com/article/c5e082985598.html
https://zhuanlan.zhihu.com/p/491321890
肿瘤亚克隆指源于同一肿瘤中共同祖细胞、遗传特性各异的细胞亚群,它们在肿瘤的发展进程中扮演着关键角色。肿瘤发生早期,正常细胞经多次驱动突变,像 KRAS、TP53 和 SMAD4 等基因的突变 ,产生具有增殖优势的祖癌细胞,进而克隆扩增形成初始肿瘤克隆,这便是肿瘤亚克隆的 “前身”。
后续,在选择、突变、遗传漂变和空间分离等因素作用下,携带优势突变的细胞不断扩张,形成多种亚克隆群体。比如,在肿瘤的生长环境里,某些细胞获得了能更好适应环境的突变,就如同在竞争中找到了 “制胜法宝”,从而不断繁殖,成为肿瘤中的一个亚克隆群体。
肿瘤的演化过程是一个复杂且多步骤的过程,涉及正常细胞通过体细胞突变(somatic mutations)的逐步积累而转变为癌细胞。这些突变受到染色质结构以及内外源性诱变压力的影响。当某些特定的突变赋予细胞选择性优势时,这些突变细胞及其后代在局部环境中不断扩展,最终形成一个共同祖先衍生的细胞群体,称为克隆(clone),即肿瘤亚克隆的 “前身”。随着时间的推移,不同的肿瘤细胞亚群(亚克隆,subclones)由于漂变或选择性压力不断出现和消失。这些亚克隆的异质性对于理解肿瘤的发生、发展以及对治疗的反应具有重要意义。
为了更好地理解肿瘤的演化过程,研究人员开发了许多基于高通量测序技术的亚克隆重建算法。这些算法利用肿瘤DNA测序数据中的突变特征来推断肿瘤亚克隆的组成和演化历史。然而,不同算法在性能上存在显著差异,且对算法性能的影响因素还未被完全了解。因此,对现有亚克隆重建算法进行系统评估,以确定其准确性和适用性,显得尤为重要。
该研究旨在评估和比较现有的31种亚克隆重建算法。研究团队设计了51个模拟肿瘤,涵盖了广泛的生物学和技术参数。为了确保评估的公正性和科学性,所有算法在一个可重复的云计算架构中执行,并通过七个独立的任务进行评分。
VCF文件:是一种用于存储基因组序列中的变异信息
一般用在 单核苷酸变异(SNV),小片段插入缺失(INDEL)等
也用于 拷贝数变异(CNA/CNV,两种表达可混用,前者表示个体体细胞事件,后者表示群体事件),SV(结构变异)等
SNV:参考基因组在1号染色体7845190为 C,但检测样本在同样位置为 A
INDEL:包含插入和缺失两种,小片段(1-50bp)
Insertion:参考基因组某片段为 ACTTG,但是检测样本同样位置为 ACCCTTG,插入了CC
Deletion:参考基因组某片段为 TTCGG,但是检测样本同样位置为 TTGG,缺失 C
CNV/CNA:是由基因组发生重排而导致的,一般指长度1KB以上的基因组大片段的拷贝数增加或者减少,主要表现为亚显微水平的缺失和重复
SV:
1.b如何影响c(子一定包括父?为何进化?同时属于两个亚克隆?如何划分不同亚克隆?)
2.SV和其他区别
流程概览(评分挑战设计思路):
1、模拟肿瘤数据(abcd按顺序来,不可颠倒)
a.设计真实克隆结构(ground truth)
决定有多少个克隆/亚克隆
每个克隆有哪些突变
每个克隆在肿瘤总体细胞中的占比
b.生成进化树
决定克隆之间的父子关系(演化路径)
每个克隆对应一个树节点
c.利用 BAMSurgeon 注入突变
将 ground truth 中定义的突变按比例注入到 normal.bam 里生成 tumor.bam
可模拟不同纯度(tumor fraction)
可模拟克隆共存和亚克隆结构
d.输出给选手的数据
tumor.bam + normal.bam
ground truth 克隆结构和进化树是隐藏的,仅用于评估算法性能
2、生成可提供给选手的数据
运行 MuTect:检测肿瘤特有的 SNV
运行 Battenberg:检测肿瘤的 CNA / 纯度
输出 VCF 文件 + CNA 分段 + 纯度信息
这些就是选手可见的数据
选手不知道有关亚克隆的任何直接信息,包括真实亚克隆数(肿瘤中实际存在的不同亚克隆的数量)、亚克隆之间的进化关系,哪部分突变属于哪个亚克隆等,需要进行亚克隆重建。
3、选手提交算法结果
根据可见的 SNV + CNA + 纯度信息
推测肿瘤的亚克隆结构
输出:
每个突变属于哪个亚克隆
每个亚克隆在肿瘤总体细胞中的占比(VAF 校正后的克隆频率)
亚克隆之间的进化关系(克隆树 / phylogeny)
4、评分和排名
比较选手输出与隐藏的 ground truth:
突变归属准确度(mutation assignment accuracy)
克隆树拓扑准确度(phylogeny accuracy)
克隆比例估计误差(VAF/RF 等)
得到算法性能排名
参考基因组(标准化的人类基因序列模板)
BAM文件(是SAM(Sequence Alignment/Map)文件的二进制版本,两者都通常用于存储基因组测序数据的比对结果)
序列比对(将核酸序列和蛋白质一级结构上的序列都看成由基本字符组成的字符串,检测序列之间的相似性。得到的是两个BAM文件,分别将正常的和参考基因组比对以及将肿瘤的和参考基因组进行比对,“正常的”来自于肿瘤患者本人的非肿瘤组织,每个人不同,其肯定不同于参考基因组)
等位基因:位于一对同源染色体相同位置上,控制同一性状不同形态的基因,如A和a就可以表示一对等位基因
等位基因频率:特定等位基因在种群中某基因座上的占比,用于量化种群的基因多样性和遗传结构
计算等位基因频率:
公式:等位基因频率 = 某等位基因的数目 / 所有等位基因的总数 × 100%。
举例:假设在一个二倍体生物中,基因型AA、Aa和aa的个数分别为N1、N2和N3,则A的等位基因频率 = (2N1 + N2) / (2(N1 + N2 + N3)) × 100%。
BAMSurgeon工具(可以在一个现有的正常样本中,人工注入(spike-in)体细胞突变(可以指定想要插入的突变位点和等位基因频率也可以随机生成),生成一个“虚拟的肿瘤样本BAM文件”。本案例中通常采用“受控随机”,即在尽量真实的情况下先随机生成突变的相关指标,在此前提下评判标准就已经确定了,也可以直接参考已知的癌症基因组数据库)
每个模拟肿瘤的设计包括通过BAMSurgeon工具进行模拟生成正常和肿瘤的BAM文件,并基于BAM文件,使用Genome Analysis Toolkit(GATK)的MuTect工具来识别体细胞单核苷酸变异(SNVs)并使用Battenberg工具来识别体细胞拷贝数异常(CNAs)并估计肿瘤纯度。这些数据作为输入提供给参与者,参与者通过提交各自的算法进行亚克隆重建,并对重建结果进行评分和排名。
软件:notion
从GEO数据库下载sra数据

浙公网安备 33010602011771号