随笔分类 - 基因组数据分析
包括count SNP,count SV等对测序数据的处理
摘要:背景 因为annovar默认的脚本下载数据库,总是中断,所以我选择用wget 下载 方法 比如想下载hg19_gwava数据,那么需要下载原始txt数据和idx文件,路径如下 http://www.openbioinformatics.org/annovar/download/hg19_gwava.
阅读全文
摘要:版权声明:本文为博主原创文章,转载请注明出处 这里我们跟Cufflinks的原理一致,使用总的外显子长度,并且去除过多的重叠的外显子的部分。使用R语言,输入为基因的GTF文件 包的安装 依赖data.table, IRanges,rtracklayer 代码 结果文件 1. 基因长度文件 链接:ht
阅读全文
摘要:前言 处理vcf文件的时候,需要多种切割,正则匹配,如果要自己写其实会比较麻烦,并且每次还得根据vcf文件格式或者需要读取的值不同要修改相应的代码。因此很多人会选择一些python的vcf的库,但是首先你得安装这个库, 并且有一些库它固定了能够读的内容,如果你的vcf的信息不在它固定的里面,就读不出
阅读全文
摘要: 有时候我们需要进行一些复杂的数学计算,比如求导, 求积分,解方程,还是用abcd字母代表变量的方程等,这就需要进行复杂的数学运算还需要具备良好的数学基础。不过现在有一个非常方便的在线工具,只需要几秒钟, 就能告诉我们所有的答案。 sage &ems;sage是一个
阅读全文
摘要:版权声明:本文为博主原创文章,转载请注明出处 我们平常多见的基因突变热图是一个基因一个格子,一种突变类型,但实际上在同一个病人中,同一个基因往往具有多种突变类型,因此传统的热图绘制工具并不能满足我们绘图的需要。应研究需要,本人自己写了一个热图绘制函数,内部调用image 进行
阅读全文
摘要:pyclone介绍 可以根据多个样品突变的allele frequency 和 copy number,推断出有该突变的细胞克隆所占的比例(cellular prevalence)在不同样品间的变化。比如: 每个cluster包括一些突变,它们在各个样品中克隆比例有着一致的变
阅读全文
摘要:前期处理 perl脚本统计RC(RC(read counts)) 读入control baseline 和 sigma(最后baseline 预测的mad值) 将gc 0.68,sigma乘上1.5,后来又乘以6,对于小于0.01或者大于0.99分位数,sigma取0.01和0.99分位点的sigm
阅读全文
摘要:进行数据初步处理(perl) 统计amplicon的RC(read counts),并且相互overlap大于75%的amplicon合并起来 统计每个amplicon的GC含量,均值, 性别识别并校正,文库大小、长度、GC含量标准化 文库大小标准化 某个sample的文库大小(read count
阅读全文
摘要: 测序产生的bam文件,有一些reads在cigar值里显示存在softclip,有一些存在hardclip,究竟softclip和hardclip是怎么判断出来的,还有是怎么标记duplicate的reads的,我怀着这些问题进行了探究。 测试步骤 编辑两个bed文件,分别含
阅读全文
摘要: 今天要上NCBI下载sra数据发现没有下载的链接,网上查发现都是老的方法,NCBI页面已经变更,于是看了NCBI的help,并且记录下来新版的sra数据下载方法,要用NCBI的工具SRA Toolkit。另外咨询师兄,总结得到新的wget下载的方法。 方法1 NCBI告知的方
阅读全文
摘要:由于基因组数据过大,想进一步用R语言处理担心系统内存不够,因此想着将文件按染色体拆分,发现python,awk,R 语言都能够非常简单快捷的实现,那么速度是否有差距呢,因此在跑几个50G的大文件之前,先用了244MB的数据对各个脚本进行测试,并且将其速度进行对比。 首先是awk处理,awk进行的是逐
阅读全文
摘要:版权声明:本文为博主原创文章,转载请注明出处 R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快。包括两个方面,一方面是写的快,代码简洁,只要一行命令就可以完成诸多任务,另一方面是处理快,内部处理的步骤进行了程序上的优化,使用多线程,甚至很多函数
阅读全文
摘要:版权声明:本文为博主原创文章,转载请注明出处 R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快。包括两个方面,一方面是写的快,代码简洁,只要一行命令就可以完成诸多任务,另一方面是处理快,内部处理的
阅读全文
摘要:一、 运行meerkat 前面已经依序安装了meerkat 的环境和meerkat,运行了预处理一步,在相对应的bam文件目录下生成了大批文件,因此,当要用meerkat处理某个bam文件时,应先将该bam文件移动到专有的一个文件夹,manual中也建议这样用。 预处理生成的文件包括: 黑名单文件.
阅读全文
摘要: SNP是单核苷酸多态性,人的基因是相似的,有些位点上存在差异,这种某个位点的核苷酸差异就做单核苷酸多态性,它影响着生物的性状,影响着对某些疾病的易感性。SNPedia是一个SNP调査百科,它引用各种已经发布的文章,或者数据库信息对SNP位点进行描述,共享着人类基因组变异的信
阅读全文
摘要:处理基因组数据,很多时候我们会觉得直接看序列文件不够直观,如果绘图的话,把n多G把数据用画图出来不仅费劲,就算操作也不方便。因此我们可以用UCSC开发出的genome browser,可以直接把数据信息写成track,连上genome browser 上查看,它还支持安装到本地服务器上(genome
阅读全文
摘要:一、准备工作 meerkat 0.189版本和以前的版本相比,支持bwa mem 输出的bam文件,还支持全外显子数据count SV。 meerkat原理:参见http://compbio.med.harvard.edu/Meerkat/ 1.1 需要准备的软件 1. unix/Linux系统(自
阅读全文

浙公网安备 33010602011771号