DeepSomatic:深度学习癌症基因突变检测技术
摘要
体细胞变异检测是癌症基因组学分析的重要组成部分。虽然大多数方法主要关注短读长测序,但长读长技术在重复序列定位和变异定相方面具有潜在优势。本文介绍DeepSomatic,这是一种用于从短读长和长读长数据中检测体细胞小核苷酸变异以及插入和缺失的深度学习方法。该方法提供全基因组和全外显子组测序模式,可以在肿瘤-正常配对样本、仅有肿瘤样本以及福尔马林固定石蜡包埋样本上运行。
为了训练DeepSomatic并解决体细胞变异检测公开训练和基准数据匮乏的问题,本研究生成并公开提供了癌症标准长读长评估(CASTLE)数据集,该数据集包含六对匹配的肿瘤-正常细胞系全基因组测序数据,分别使用某中心的短读长技术、某中心HiFi长读长技术以及某机构纳米孔长读长技术进行测序,同时提供了基准变异集。在多种样本(包括细胞系和患者来源样本)以及多种测序技术(短读长和长读长)中,DeepSomatic均优于现有的变异检测工具。
引言
体细胞变异在癌症发生和发展中起着关键作用。准确检测这些变异对于理解肿瘤生物学和指导临床决策至关重要。传统的体细胞变异检测方法主要基于短读长测序技术,但其在检测重复区域和复杂结构变异方面存在局限性。近年来,长读长测序技术的出现为解决这些问题提供了新途径,但针对多技术平台的统一变异检测工具仍然缺乏。
本文提出的DeepSomatic方法,结合了深度学习技术的优势,能够整合短读长和长读长测序数据的优势,提高体细胞小变异的检测准确性和可靠性。
方法
DeepSomatic架构
DeepSomatic基于卷积神经网络(CNN)构建,该架构已被证明在图像识别和生物信息学任务中表现优异。该方法的核心思想是将测序读取的多维特征转换为图像表示,然后通过深度学习模型进行分类。
模型接受三种主要输入:
- 比对信息:包括碱基质量值、比对质量值和读取方向
- 序列背景:参考基因组序列和读取序列
- 统计特征:如等位基因频率和读取深度
对于短读长数据,模型使用局部比对信息;对于长读长数据,则整合了全长比对特征以提高准确性。
训练数据与预处理
为了解决训练数据匮乏的问题,本研究创建了CASTLE数据集,该数据集包括:
- 六对匹配的肿瘤-正常细胞系全基因组测序数据
- 三种测序技术:某中心短读长、某中心HiFi长读长和某机构纳米孔长读长
- 高质量的基准变异集,通过多种正交方法验证
训练过程中,采用数据增强技术增加样本多样性,包括模拟测序错误、改变读取深度和引入人工变异。
多模态数据处理
DeepSomatic设计支持多种数据输入模式:
- 肿瘤-正常配对模式:同时分析肿瘤和匹配的正常样本,提高特异性
- 肿瘤单独模式:在没有匹配正常样本的情况下进行检测
- FFPE样本模式:针对福尔马林固定石蜡包埋样本的特殊处理流程
对于长读长数据,还集成了单倍型分型信息,进一步提高变异检测准确性。
结果
基准性能评估
在SEQC2 HCC1395基准数据集上,DeepSomatic在体细胞单核苷酸变异检测方面表现出色:
- 灵敏度:相比现有方法提高5-15%
- 特异性:误报率降低10-20%
- 均衡性:在不同变异类型和基因组区域间表现一致
特别是在低频率变异(等位基因频率<10%)的检测上,DeepSomatic的优势更为明显。
多技术平台性能
在六种肿瘤-正常细胞系上的评估结果显示,DeepSomatic在不同测序技术中均保持高性能:
- 某中心短读长技术:F1分数较MuTect2提高8%
- 某中心HiFi长读长技术:在重复区域检测优于短读长方法
- 某机构纳米孔长读长技术:保持高准确性的同时提高了检测效率
临床样本验证
在胶质母细胞瘤和儿科血液癌症肿瘤样本上的验证表明,DeepSomatic能够:
- 准确检测临床相关变异,包括已知的致癌突变
- 在低肿瘤纯度样本中保持高检测性能
- 识别与治疗反应相关的变异模式
讨论
技术优势
DeepSomatic的主要技术优势包括:
- 多技术兼容性:统一框架处理短读长和长读长数据,减少分析复杂性
- 可扩展架构:支持从全基因组到全外显子组的不同规模分析
- 开放可用性:代码和数据完全公开,促进方法验证和应用扩展
临床应用潜力
该方法在临床环境中具有重要应用价值:
- 精准肿瘤学:为个体化治疗提供更准确的变异信息
- 临床试验:作为标准化的变异检测工具提高结果可比性
- 转化研究:连接基础研究发现与临床实践
局限性与未来方向
尽管DeepSomatic表现出色,但仍有一些局限性:
- 计算资源需求较高,特别是在处理全基因组数据时
- 对于极低频变异(<1%)的检测仍需进一步优化
- 在非人类基因组中的应用需要额外验证
未来研究方向包括:
- 整合更多数据类型(如RNA测序和表观遗传数据)
- 开发更高效的计算方法降低资源需求
- 扩展至更多物种和疾病类型
结论
DeepSomatic提供了一种准确、可靠且多功能的体细胞小变异检测解决方案,适用于多种测序技术平台。通过公开的CASTLE数据集和开源代码,该方法有望成为癌症基因组学分析的标准工具之一,推动精准医学研究和发展。
数据与代码可用性
CASTLE细胞系测序数据可在NCBI SRA BioProject PRJNA1086849和GitHub上公开获取。PacBio HiFi测序数据可在某中心数据集网站上获取。临床样本测序数据受控访问,可通过dbGaP研究phs002529和phs004188获取。DeepSomatic和DeepVariant代码可在GitHub上公开获取。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码

公众号二维码


浙公网安备 33010602011771号