• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录

小小的米粒

  • 博客园
  • 联系
  • 订阅
  • 管理

公告

View Post

WGS外显子数据基本概念

对于一个生物知识还停留在初中和高中时代的人来说,理解基因组数据确实有点困难,经过几天的探索,初步对这个概念有了一些理解。下面逐一解释。

人类有显性基因和隐性基因,可是人类基因组并没有测序怎么办

人类基因组99.9%的序列都是一样的,只有少数不一样,这一部分需要对大量人群进行统计,因此诞生了数据库dbSNP,检测核苷酸多样性,最低的多态性应该超过1%,否则就会被认为是mutant[1]。下图[2]是一个比较典型的例子,为什么每一个位点只有两种碱基,因为大部分的基因只有显性和隐性两种可能。

怎么检测癌症中的突变情况

CNV(copy number variation)和 BAF(B allele frequency)是检测癌症基因组时常用的两个概念,前者是数量的变化,后者是类型的比例,CNV好理解,指的是某一片段检测到的数量,后者是指各个allele的类型的比例,这个就是根据上文所说的两种碱基的比例来确定的。

一些基本的数据存储格式
VCF格式

这个格式本质还是一个表格,但是加上了一些注释信息,fix是对变异信息的总结,gt(genotype)是各个样本单独的信息[3]

参考文献:
[1] dbSNP: the NCBI database of genetic variation
[2] Analysis of Somatic Alterations in Cancer Genome: From SNP Arrays to Next Generation Sequencing
[3] https://grunwaldlab.github.io/Population_Genetics_in_R/reading_vcf.html
[4] https://zhuanlan.zhihu.com/p/31529899

posted on 2021-08-16 17:07  小小的米粒  阅读(314)  评论(0)    收藏  举报

刷新页面返回顶部
 
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3