随笔分类 -  基因组数据分析

包括count SNP,count SV等对测序数据的处理
摘要:背景 因为annovar默认的脚本下载数据库,总是中断,所以我选择用wget 下载 方法 比如想下载hg19_gwava数据,那么需要下载原始txt数据和idx文件,路径如下 http://www.openbioinformatics.org/annovar/download/hg19_gwava. 阅读全文
posted @ 2020-04-24 12:30 ywliao 阅读(834) 评论(0) 推荐(0)
摘要:版权声明:本文为博主原创文章,转载请注明出处 这里我们跟Cufflinks的原理一致,使用总的外显子长度,并且去除过多的重叠的外显子的部分。使用R语言,输入为基因的GTF文件 包的安装 依赖data.table, IRanges,rtracklayer 代码 结果文件 1. 基因长度文件 链接:ht 阅读全文
posted @ 2020-03-19 10:27 ywliao 阅读(4059) 评论(1) 推荐(0)
摘要:前言 处理vcf文件的时候,需要多种切割,正则匹配,如果要自己写其实会比较麻烦,并且每次还得根据vcf文件格式或者需要读取的值不同要修改相应的代码。因此很多人会选择一些python的vcf的库,但是首先你得安装这个库, 并且有一些库它固定了能够读的内容,如果你的vcf的信息不在它固定的里面,就读不出 阅读全文
posted @ 2020-02-29 11:50 ywliao 阅读(2719) 评论(0) 推荐(0)
摘要:  有时候我们需要进行一些复杂的数学计算,比如求导, 求积分,解方程,还是用abcd字母代表变量的方程等,这就需要进行复杂的数学运算还需要具备良好的数学基础。不过现在有一个非常方便的在线工具,只需要几秒钟, 就能告诉我们所有的答案。 sage  &ems;sage是一个 阅读全文
posted @ 2018-06-04 11:13 ywliao 阅读(4781) 评论(0) 推荐(0)
摘要:版权声明:本文为博主原创文章,转载请注明出处   我们平常多见的基因突变热图是一个基因一个格子,一种突变类型,但实际上在同一个病人中,同一个基因往往具有多种突变类型,因此传统的热图绘制工具并不能满足我们绘图的需要。应研究需要,本人自己写了一个热图绘制函数,内部调用image 进行 阅读全文
posted @ 2018-05-07 21:07 ywliao 阅读(2420) 评论(0) 推荐(0)
摘要:pyclone介绍   可以根据多个样品突变的allele frequency 和 copy number,推断出有该突变的细胞克隆所占的比例(cellular prevalence)在不同样品间的变化。比如: 每个cluster包括一些突变,它们在各个样品中克隆比例有着一致的变 阅读全文
posted @ 2018-03-08 13:44 ywliao 阅读(3993) 评论(0) 推荐(0)
摘要:前期处理 perl脚本统计RC(RC(read counts)) 读入control baseline 和 sigma(最后baseline 预测的mad值) 将gc 0.68,sigma乘上1.5,后来又乘以6,对于小于0.01或者大于0.99分位数,sigma取0.01和0.99分位点的sigm 阅读全文
posted @ 2017-12-27 16:51 ywliao 阅读(2415) 评论(2) 推荐(0)
摘要:进行数据初步处理(perl) 统计amplicon的RC(read counts),并且相互overlap大于75%的amplicon合并起来 统计每个amplicon的GC含量,均值, 性别识别并校正,文库大小、长度、GC含量标准化 文库大小标准化 某个sample的文库大小(read count 阅读全文
posted @ 2017-12-27 16:46 ywliao 阅读(743) 评论(0) 推荐(0)
摘要:  测序产生的bam文件,有一些reads在cigar值里显示存在softclip,有一些存在hardclip,究竟softclip和hardclip是怎么判断出来的,还有是怎么标记duplicate的reads的,我怀着这些问题进行了探究。 测试步骤 编辑两个bed文件,分别含 阅读全文
posted @ 2017-09-02 22:07 ywliao 阅读(3375) 评论(0) 推荐(2)
摘要:  今天要上NCBI下载sra数据发现没有下载的链接,网上查发现都是老的方法,NCBI页面已经变更,于是看了NCBI的help,并且记录下来新版的sra数据下载方法,要用NCBI的工具SRA Toolkit。另外咨询师兄,总结得到新的wget下载的方法。 方法1 NCBI告知的方 阅读全文
posted @ 2017-08-14 10:52 ywliao 阅读(28516) 评论(0) 推荐(0)
摘要:由于基因组数据过大,想进一步用R语言处理担心系统内存不够,因此想着将文件按染色体拆分,发现python,awk,R 语言都能够非常简单快捷的实现,那么速度是否有差距呢,因此在跑几个50G的大文件之前,先用了244MB的数据对各个脚本进行测试,并且将其速度进行对比。 首先是awk处理,awk进行的是逐 阅读全文
posted @ 2017-03-26 10:01 ywliao 阅读(1918) 评论(0) 推荐(1)
摘要:版权声明:本文为博主原创文章,转载请注明出处 R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快。包括两个方面,一方面是写的快,代码简洁,只要一行命令就可以完成诸多任务,另一方面是处理快,内部处理的步骤进行了程序上的优化,使用多线程,甚至很多函数 阅读全文
posted @ 2017-03-24 21:56 ywliao 阅读(9585) 评论(0) 推荐(1)
摘要:版权声明:本文为博主原创文章,转载请注明出处     R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快。包括两个方面,一方面是写的快,代码简洁,只要一行命令就可以完成诸多任务,另一方面是处理快,内部处理的 阅读全文
posted @ 2017-03-20 19:32 ywliao 阅读(34461) 评论(0) 推荐(0)
摘要:一、 运行meerkat 前面已经依序安装了meerkat 的环境和meerkat,运行了预处理一步,在相对应的bam文件目录下生成了大批文件,因此,当要用meerkat处理某个bam文件时,应先将该bam文件移动到专有的一个文件夹,manual中也建议这样用。 预处理生成的文件包括: 黑名单文件. 阅读全文
posted @ 2017-03-08 20:09 ywliao 阅读(1912) 评论(0) 推荐(1)
摘要:   SNP是单核苷酸多态性,人的基因是相似的,有些位点上存在差异,这种某个位点的核苷酸差异就做单核苷酸多态性,它影响着生物的性状,影响着对某些疾病的易感性。SNPedia是一个SNP调査百科,它引用各种已经发布的文章,或者数据库信息对SNP位点进行描述,共享着人类基因组变异的信 阅读全文
posted @ 2017-03-08 18:30 ywliao 阅读(6416) 评论(8) 推荐(1)
摘要:处理基因组数据,很多时候我们会觉得直接看序列文件不够直观,如果绘图的话,把n多G把数据用画图出来不仅费劲,就算操作也不方便。因此我们可以用UCSC开发出的genome browser,可以直接把数据信息写成track,连上genome browser 上查看,它还支持安装到本地服务器上(genome 阅读全文
posted @ 2017-03-06 09:54 ywliao 阅读(4702) 评论(1) 推荐(0)
摘要:一、准备工作 meerkat 0.189版本和以前的版本相比,支持bwa mem 输出的bam文件,还支持全外显子数据count SV。 meerkat原理:参见http://compbio.med.harvard.edu/Meerkat/ 1.1 需要准备的软件 1. unix/Linux系统(自 阅读全文
posted @ 2017-02-25 10:23 ywliao 阅读(2033) 评论(1) 推荐(1)