文献阅读《A Novel Algorithm for Detecting Microsatellite Instability Based on Next-Generation Sequencing Data》
基于下一代测序数据的微卫星不稳定性检测新算法
A Novel Algorithm for Detecting Microsatellite Instability Based on Next-Generation Sequencing Data
Li S, Wang B, Chang M, Hou R, Tian G and Tong L (2022) A Novel Algorithm for Detecting Microsatellite Instability Based on Next-Generation Sequencing Data. Front. Oncol. 12:916379. doi: 10.3389/fonc.2022.916379
微卫星不稳定性(MSI)是由DNA复制过程中自发获得或丢失核苷酸引起的基因组突变。MSI在临床上已被发现是一种有用的免疫治疗生物标志物。基于DNA的MSI检测方法主要是聚合酶链反应(PCR)扩增和片段长度分析,成本高,耗时长。因此,作者开发了一种基于下一代测序(NGS)数据的检测MSI的新方法。
文章选择了6个MSI标记。在比对和计数之后,绘制了一个直方图,显示每个标记的不同长度的计数。然后,设计了一种算法来识别生成的直方图中的峰值,。
选取9个样本作为训练数据集,101个样本作为验证数据集,68个样本作为测试数据集,数据集来自内蒙古赤峰市医院。基于NGS的方法对验证数据集的准确率为100%,对测试数据集的准确率为98.53%,其中只检测到一个假阳性。结论:利用NGS数据可以获得准确的MSI判断,可以提供与金标准PCR方法相媲美的MSI检测方法。
样本构成
Table 1 [图片来源于原文]
测序数据可在NCBI网站获得:PRJNA810563
数据处理
1、测序数据比对获得bam文件
首先将测序下机的数据经过处理之后得到bam文件。(详细的处理可参考原文献)
2、获取深度数据识别peak
首先从bam文件提取位点的深度信息,获得每个MSI位点的depth。
接着根据获取的depth数据识别peak。
Figure 3A [图片来源于原文]
第\(n\)个位置的相对高度定义为:
其中,\(N\)为检测到的峰总数,\(h\)为各峰的绝对高度。超参数\(R_h\)被设置为峰值的阈值。如果发现了一个峰,它的\(rh_n \geqslant R_h\),那么这个峰就被认为是一个真正的峰;否则认为是技术噪声造成的假峰。这一步骤将有助于消除一些假峰。
其次,应用平滑步骤。平滑步骤是计算其邻域间平均高度的过程:
Figure 4 [图片来源于原文]
3、判断是否为unstable
识别peak之后,通过Tumor与Normal的比较,可以判断微卫星位点是稳定还是不稳定。如果Tumor与Normal中的peak个数不同,则判定为\(unstable\)。如果两种组织的peak个数相同,但Tumor与Normal峰位置的错位2bp则也认为是\(unstable\)。
参数优化
定义了一个参数 \(diff\) 来衡量NGS数据与PCR数据之间的差距,最小化 \(diff\) 来确定最优的参数。
使NGS数据与PCR数据之间的差距最小化,损失函数定义为:
其中\(S\)为样本总数,\(T\)为标记总数,\(P_{NGS}^{i,t}\)为算法在NGS数据中的第T个标记中发现的峰数,\(P_{PCR}^{i,t}\)为PCR数据中第T个标记中发现的第i个样本中的峰数。该损失函数可以评估每个样品NGS数据与PCR数据的平均峰差。
涉及到的参数有peak的阈值,是否平滑处理。设置peak阈值的寻优范围为0.1-3.0.步长为0.1。
最终确定peak阈值为0.2,平滑处理。
结果总结
在独立的68个样本数据集中,准确性:98.53%;敏感性:100%
使用相同的训练集、验证集和测试集分别测试该算法和MSIsensor的性能,MSIsensor阈值定为40%。两种算法的性能如图5所示:(A)该算法在验证集,(B)在验证集上的MSIsensor, (C)在测试集上的算法,(D)在测试集上的MSIsensor。
Figure 5 [图片来源于原文]
该算法,利用NGS数据来确定癌症患者的MSI状态,其准确性与基于PCR和毛细血管电泳的金标准方法相当。
本文作者:Sunny-King
本文链接:文章来源于博客园 https://www.cnblogs.com/Sunny-King/p/Literature-MSIpeak.html
转载要求:欢迎转载,转载之后请务必在文章明显位置标出原文链接和作者
错误修复:如有错误或疑问请联系博主
版权声明:本作品采用署名-非商业使用-禁止演绎 (by-nc-nd)许可协议进行许可
如果本文对您有帮助,请点个赞吧!志同道合的朋友可以点个关注。

浙公网安备 33010602011771号