基因组数据分析 - 随笔分类 - ywliao

annvar下载数据库的网址

摘要：背景因为annovar默认的脚本下载数据库，总是中断，所以我选择用wget 下载方法比如想下载hg19_gwava数据，那么需要下载原始txt数据和idx文件，路径如下 http://www.openbioinformatics.org/annovar/download/hg19_gwava. 阅读全文

posted @ 2020-04-24 12:30 ywliao 阅读(843) 评论(0) 推荐(0)

如何获得FPKM/RPKM计算需要的基因长度（考虑exon之间的overlap）

posted @ 2020-03-19 10:27 ywliao 阅读(4111) 评论(1) 推荐(0)

python通用读取vcf文件的类（可以直接复制粘贴使用）

摘要：前言处理vcf文件的时候，需要多种切割，正则匹配，如果要自己写其实会比较麻烦，并且每次还得根据vcf文件格式或者需要读取的值不同要修改相应的代码。因此很多人会选择一些python的vcf的库，但是首先你得安装这个库，并且有一些库它固定了能够读的内容，如果你的vcf的信息不在它固定的里面，就读不出阅读全文

posted @ 2020-02-29 11:50 ywliao 阅读(2750) 评论(0) 推荐(0)

方便快捷的求导求积分解方程在线工具sage介绍

摘要：有时候我们需要进行一些复杂的数学计算，比如求导，求积分，解方程，还是用abcd字母代表变量的方程等，这就需要进行复杂的数学运算还需要具备良好的数学基础。不过现在有一个非常方便的在线工具，只需要几秒钟，就能告诉我们所有的答案。 sage &ems;sage是一个阅读全文

posted @ 2018-06-04 11:13 ywliao 阅读(4852) 评论(0) 推荐(0)

一个函数实现基因内具有多种突变类型的热图的绘制

posted @ 2018-05-07 21:07 ywliao 阅读(2447) 评论(0) 推荐(0)

安装使用pyclone进行克隆演化推断

摘要：pyclone介绍可以根据多个样品突变的allele frequency 和 copy number，推断出有该突变的细胞克隆所占的比例（cellular prevalence）在不同样品间的变化。比如：每个cluster包括一些突变，它们在各个样品中克隆比例有着一致的变阅读全文

posted @ 2018-03-08 13:44 ywliao 阅读(4015) 评论(0) 推荐(0)

ONCOCNV软件思路分析之tumor处理

摘要：前期处理 perl脚本统计RC(RC(read counts)) 读入control baseline 和 sigma（最后baseline 预测的mad值）将gc 0.68，sigma乘上1.5,后来又乘以6，对于小于0.01或者大于0.99分位数，sigma取0.01和0.99分位点的sigm 阅读全文

posted @ 2017-12-27 16:51 ywliao 阅读(2429) 评论(2) 推荐(0)

ONCOCNV软件思路分析之control处理

摘要：进行数据初步处理(perl) 统计amplicon的RC(read counts),并且相互overlap大于75%的amplicon合并起来统计每个amplicon的GC含量,均值, 性别识别并校正，文库大小、长度、GC含量标准化文库大小标准化某个sample的文库大小（read count 阅读全文

posted @ 2017-12-27 16:46 ywliao 阅读(751) 评论(0) 推荐(0)

bam文件softclip ， hardclip ，markduplicate的探究

摘要：测序产生的bam文件，有一些reads在cigar值里显示存在softclip，有一些存在hardclip，究竟softclip和hardclip是怎么判断出来的，还有是怎么标记duplicate的reads的，我怀着这些问题进行了探究。测试步骤编辑两个bed文件，分别含阅读全文

posted @ 2017-09-02 22:07 ywliao 阅读(3417) 评论(0) 推荐(2)

NCBI下载sra数据（新）

摘要：今天要上NCBI下载sra数据发现没有下载的链接，网上查发现都是老的方法，NCBI页面已经变更，于是看了NCBI的help，并且记录下来新版的sra数据下载方法，要用NCBI的工具SRA Toolkit。另外咨询师兄，总结得到新的wget下载的方法。方法1 NCBI告知的方阅读全文

posted @ 2017-08-14 10:52 ywliao 阅读(28551) 评论(0) 推荐(0)

将基因组数据分类并写出文件，python，awk，R data.table速度PK

摘要：由于基因组数据过大，想进一步用R语言处理担心系统内存不够，因此想着将文件按染色体拆分，发现python，awk，R 语言都能够非常简单快捷的实现，那么速度是否有差距呢，因此在跑几个50G的大文件之前，先用了244MB的数据对各个脚本进行测试，并且将其速度进行对比。首先是awk处理，awk进行的是逐阅读全文

posted @ 2017-03-26 10:01 ywliao 阅读(1931) 评论(0) 推荐(1)

R语言基因组数据分析可能会用到的data.table函数整理

posted @ 2017-03-24 21:56 ywliao 阅读(9624) 评论(0) 推荐(1)

R语言数据分析利器data.table包 —— 数据框结构处理精讲

posted @ 2017-03-20 19:32 ywliao 阅读(34515) 评论(0) 推荐(0)

生物结构变异分析软件meerkat 0.189使用笔记（二）

摘要：一、运行meerkat 前面已经依序安装了meerkat 的环境和meerkat，运行了预处理一步，在相对应的bam文件目录下生成了大批文件，因此，当要用meerkat处理某个bam文件时，应先将该bam文件移动到专有的一个文件夹，manual中也建议这样用。预处理生成的文件包括：黑名单文件. 阅读全文

posted @ 2017-03-08 20:09 ywliao 阅读(1933) 评论(0) 推荐(1)

寻找与疾病相关的SNP位点——R语言从SNPedia批量提取搜索数据

摘要： SNP是单核苷酸多态性，人的基因是相似的，有些位点上存在差异，这种某个位点的核苷酸差异就做单核苷酸多态性，它影响着生物的性状，影响着对某些疾病的易感性。SNPedia是一个SNP调査百科，它引用各种已经发布的文章，或者数据库信息对SNP位点进行描述，共享着人类基因组变异的信阅读全文

posted @ 2017-03-08 18:30 ywliao 阅读(6440) 评论(8) 推荐(1)

UCSC genome browser 个人track 安装

摘要：处理基因组数据，很多时候我们会觉得直接看序列文件不够直观，如果绘图的话，把n多G把数据用画图出来不仅费劲，就算操作也不方便。因此我们可以用UCSC开发出的genome browser，可以直接把数据信息写成track，连上genome browser 上查看，它还支持安装到本地服务器上（genome 阅读全文

posted @ 2017-03-06 09:54 ywliao 阅读(4727) 评论(1) 推荐(0)

生物结构变异分析软件meerkat 0.189使用笔记（一）

摘要：一、准备工作 meerkat 0.189版本和以前的版本相比，支持bwa mem 输出的bam文件，还支持全外显子数据count SV。 meerkat原理：参见http://compbio.med.harvard.edu/Meerkat/ 1.1 需要准备的软件 1. unix/Linux系统（自阅读全文

posted @ 2017-02-25 10:23 ywliao 阅读(2043) 评论(1) 推荐(1)

ywliao

随笔分类 - 基因组数据分析

公告