统计 fastq 文件 q20 , GC 含量的软件

摘要: 二代测序的分析过程中,经常需要统计原始下机数据的数据量,看数据量是否符合要求;另外还需要统计q20,q30,GC含量等反应测序质量的指标; 在kseq.h 的基础上稍加改造,就可以实现从fastq 文件中统计这些指标的功能,而且速度非常的快 源代码保存为 parse.c , 然后编译 阅读全文
posted @ 2017-02-14 14:56 庐州月光 阅读(4084) 评论(6) 推荐(1)

C语言插入排序

摘要: 插入排序的过程和斗地主时整理扑克牌的过程是类似的,对于一张新的扑克牌,从第一张手牌开始依次比较,如果位置合适,就在这个位置插入新的扑克牌; 有两点比较关键的地方: 1) 判断何时需要插入; 2)插入新的元素后,在插入位置之后的所有元素的位置都会改变,变成之前的元素; 阅读全文
posted @ 2017-02-14 14:30 庐州月光 阅读(300) 评论(0) 推荐(0)

samtools flags 的含义

摘要: 对于双端比对的数据,生成的BAM文件中,R1端序列和R2端序列的标识符是一样的,之前一直不知道如何根据bam文件区分哪条序列是R1端,哪条序列是R2端,昨天仔细研究了一下,原来代表R1端和R2端的信息都存储在flag中,即bam文件的第二列; 在bam文件格式中定义了各种flag代表的意思 1 : 阅读全文
posted @ 2016-04-27 10:19 庐州月光 阅读(16622) 评论(0) 推荐(0)

vsearch 去除重复序列和singleton 序列

摘要: 在16S数据分析中,为了减少聚类的时间,提高准确度,需要去除重复序列,而singleton序列因为没有其他的序列作为验证,可信度不是很高,也需要去除,通常情况下使用usearch 完成这2项任务,但是usearch 64位是收费的,而32为的usearch 在64位的red hat 上测试时,去除重 阅读全文
posted @ 2016-04-20 14:44 庐州月光 阅读(3869) 评论(0) 推荐(0)

Fastqc 能够识别的碱基编码格式

摘要: Fastqc 能够自动识别序列的碱基编码格式,我查看一下源代码,发现是碱基编码格式一共分为 1)sanger/illumina 1.9 2) illumina 1.3 3) illumina 1.5 其核心的代码为 通过找到对应的ASCII值最小的碱基质量值来判断对应的编码格式, 在ASCII码表中 阅读全文
posted @ 2016-04-06 14:31 庐州月光 阅读(1935) 评论(0) 推荐(0)

Fastqc 碱基质量分布图

摘要: 横坐标代表每个每个碱基的位置,反映了读长信息,比如测序的读长为150bp,横坐标就是1到150; 纵坐标代表碱基质量值, 图中的箱线图代表在每个位置上所有碱基的质量值分布, 中间的红线代表的是中位数 用黄色填充的区域的上下两端分别代表上四分位数和下四分位数; 箱线图最上方的短线代表90%,最下方的短 阅读全文
posted @ 2016-04-06 09:46 庐州月光 阅读(5132) 评论(0) 推荐(0)

利用kseq.h parse fasta/fastq 文件

摘要: 在分析中经常需要统计fasta/fastq文件的序列数和碱基数, 但是没有找到一些专门做这件事的小工具,可能是这个功能太简单了; 之前用自己写的perl的脚本统计这些信息, 当fastq文件非常大时,就变的很慢; 今天在网上搜到kseq.h可以parse fasta/fastq文件,用C写的, 速度 阅读全文
posted @ 2016-03-22 17:01 庐州月光 阅读(1981) 评论(0) 推荐(0)

BWT转换对字符串进行编码

摘要: 今天看了下bowtie 的论文, 里面描述了BWT转换的过程和bowtie的比对算法; NGS测序数据的数据量非常大, 为了更快的处理, 通常需要对数据进行压缩;而BWT实际上就是一种数据转换方法, 将原始序列经过BWT转换后, 可以更方便的进行压缩;而且BWT转换是一个可逆的转换,能够根据转换后的 阅读全文
posted @ 2016-03-07 16:44 庐州月光 阅读(2323) 评论(0) 推荐(0)

bowtie2-inspect 根据bowtie2的索引取得fasta 序列

摘要: 今天运行tophat2的时候看到下面这条记录: [2016-02-27 11:40:03] Checking for reference FASTA file Warning: Could not find FASTA file /home/pub/database/Human/hg19/bowti 阅读全文
posted @ 2016-03-02 11:41 庐州月光 阅读(3069) 评论(0) 推荐(0)

samtools faidx 命令处理fasta序列

摘要: samtools faidx 能够对fasta 序列建立一个后缀为.fai 的文件,根据这个.fai 文件和原始的fastsa文件, 能够快速的提取任意区域的序列 用法: samtools faidx input.fa 该命令对输入的fasta序列有一定要求:对于每条序列,除了最后一行外, 其他行的 阅读全文
posted @ 2016-02-19 12:56 庐州月光 阅读(14662) 评论(0) 推荐(0)