生物信息 - 随笔分类 - Lyon2014

记一次开源软件的篡改

摘要：pandaseq是一款非常好用的序列拼接软件，项目传送：https://github.com/neufeld/pandaseq/ （编译安装前需要libtool-devel）所谓科技服务和科研态度有的时候真的不统一，在pandaseq拼接的时候，如果输出fastq文件，overlap部分，如果错配的... 阅读全文

posted @ 2015-08-06 16:54 Lyon2014 阅读(662) 评论(1) 推荐(0)

Python并发实践_03_并发实战之一

摘要：16S数据质控流程，一次下机lane包括很多的项目，每个项目有独立的合同号，一个项目可能包含16S或者ITS两种，通过一个完整的pipeline，将上游拆分好的数据全部整理成可以直接分析的数据。原本这个工作是通过并行的sge实现，是运行层面的并行，现在在程序层面实现并行处理，可以脱离sge系统工作。... 阅读全文

posted @ 2015-06-25 13:41 Lyon2014 阅读(419) 评论(0) 推荐(0)

去除测序reads中的接头：adaptor

摘要：之前用c写过一个程序，查找reads中是否包含了adaptor，如果检测到的话就过滤掉含有adaptor的reads，这次在过滤完数据之后发现接头序列比较多，为了提升组装效果，又不能很大地影响数据量，需要对接头进行截断处理，并过滤过短的reads，用python写了一个简短的程序，指定超过3个错配以... 阅读全文

posted @ 2015-05-29 13:11 Lyon2014 阅读(2744) 评论(0) 推荐(0)

Matplotlib初体验

摘要：为一个客户做了关于每个差异otu在时间点上变化的折线图，使用python第一次做批量作图的程序，虽然是很简单的折线图，但是也是第一次使用matplotlib的纪念。ps：在第一个脚本上做了点小的改动，加上了分类信息作为图的标题，加上网格便于对照y轴丰度值，x轴的名称更加接近样品的实际名称。 1 fr... 阅读全文

posted @ 2015-05-25 17:56 Lyon2014 阅读(287) 评论(0) 推荐(0)

Python初体验

摘要：今天开始所有的工作脚本全都从perl转变到python，开发速度明显降低了不少，相信以后随着熟练度提升会好起来。贴一下今天一个工作代码，由于之前去一家小公司测序时，序列长度竟然都没有达到要求，为了之后的索赔事宜，写了个脚本统计所有序列的结果，主要包括总的reads数，bases数，和达到测序策略要求... 阅读全文

posted @ 2015-05-12 14:57 Lyon2014 阅读(424) 评论(0) 推荐(0)

tophat安装

摘要：1 依赖软件：bowtie，bowtie2，samtools，boost c++ library2 建立索引文件： bowtie包括bowtie，bowtie-build，bowtie-inspect bowtie2包括bowtie2，bowtie2-build，bowtie2-inspect，默认会找bowtie2 bowtie-build运行结果会得到一... 阅读全文

posted @ 2015-03-19 21:46 Lyon2014 阅读(1211) 评论(0) 推荐(0)

glimmer 3.02安装小记

摘要：wgethttp://www.cbcb.umd.edu/software/glimmer/glimmer302.tar.gztar xzfglimmer302.tar.gzcd glimmer3.02cd srcmake >out 2>err错误排除：1.delcher.cc:284:17: error: 'strlen' was notdeclared in this scope等类... 阅读全文

posted @ 2015-03-19 21:41 Lyon2014 阅读(744) 评论(0) 推荐(0)

Augustus安装小记

摘要：之前安装过一次Augustus，由于节点重新部署后，原来安装的硬盘被格掉了，今天重新安装的时候出了一些问题，记录一下。1. 需要boost，安装好boost之后，虽然将其加入到~/.bashrc配置中，但是编译还是会找不到boost库，我就将Makefile里面LIBS一行注释，改为 -L/.../lib "/.../lib"是我的boost安装后lib路径，这样可以解决boost找不到的问题2.... 阅读全文

posted @ 2015-03-19 21:34 Lyon2014 阅读(620) 评论(0) 推荐(0)

[转]真核生物预测软件

摘要：gene structure prediction methods基因预测的方法有很多。维基百科：http://en.wikipedia.org/wiki/List_of_gene_prediction_software；http://www.geneprediction.org上提供了大量的基因预... 阅读全文

posted @ 2014-10-31 15:16 Lyon2014 阅读(3019) 评论(0) 推荐(0)

利用USearch去除嵌合体(chimeras)

摘要：嵌合体序列指在pcr过程中，两条不同的序列产生杂交扩增的序列，属于人工污染，在ITS和16S分析中，应该首先去除，USearch提供去除嵌合体的功能usearch-uchime_ref reads.fna -db reference.fna -strand plus-nonchimerasnonch... 阅读全文

posted @ 2014-10-24 15:02 Lyon2014 阅读(2105) 评论(1) 推荐(0)

R学习笔记

摘要：1 barplot(data$v2,names.arg=data$v1),names太多会导致显示不全，可以加上las=2，使names旋转90度显示2 names太长，显示不全，利用par(mar=c(a,b,c,d))改变左图边界宽度，abcd依次是下，左，上，右边界3 高丰度的数量级太大... 阅读全文

posted @ 2014-10-21 14:50 Lyon2014 阅读(318) 评论(0) 推荐(0)

alpha rarefaction using qiime

摘要：shannon菌群多样性指数H=－∑（Pi）（㏑Pi）Pi=样品中属于第i种的个体的比例，如样品总个体数为N，第i种个体数为ni，则Pi=ni/N；各种之间，个体分配越均匀，H值就越大。如果每一个体都属于不同的种，多样性指数就最大；如果每一个体都属于同一种，则其多样性指数就最小Dominance：随... 阅读全文

posted @ 2014-10-17 10:57 Lyon2014 阅读(4465) 评论(0) 推荐(0)

primer漏配问题解决

摘要：在对之前的ITS数据(454数据)做split时，发现有一些reads没有被匹配上，但是barcode能够完全匹配，虽然之后的primer在中间漏了一个碱基，导致后面的碱基全部误匹配，从而导致这条reads没有被匹配上的问题。终于解决Qiime的问题后，使用split_libraries.py 做切... 阅读全文

posted @ 2014-10-13 16:24 Lyon2014 阅读(328) 评论(0) 推荐(0)

物种丰度计算

摘要：由于Qiime出了点问题，ITS项目先缓几天，这两天先忙着做meta的内容。物种丰度计算准备工作：1 使用SOAPAligner对过滤好的数据进行比对，得到相应的.soap文件，里面记录匹配到的reads的情况；2 还需要将所有用到的reference做一个TAX，tax文件记录referenc... 阅读全文

posted @ 2014-10-11 15:16 Lyon2014 阅读(3553) 评论(0) 推荐(0)

454ITS数据按barcode和primer分类程序v1.0

摘要：不知道有什么好办法可以让primer允许漏配，现在仅仅是允许错配，还是有一些没有配上，454数据有些primer漏配了一些，下一步解决这个问题 1 #include 2 #include 3 #include 4 #include 5 #include 6 #include ... 阅读全文

posted @ 2014-10-08 17:36 Lyon2014 阅读(383) 评论(0) 推荐(0)

ITS简要分析流程(using Qiime)

摘要：Qiime安装参考资料：http://blog.sina.com.cn/s/blog_83f77c940101h2rp.htmlQiime script官方说明http://qiime.org/scripts/index.html一般ITS数据简要分析过程reference下载：https://gi... 阅读全文

posted @ 2014-09-26 11:21 Lyon2014 阅读(6608) 评论(0) 推荐(0)

PCoA主坐标分析

摘要：来源：http://blog.sina.com.cn/s/blog_670445240101nlss.html1 背景介绍这是一种排序方法。假设我们对N个样方有了衡量它们之间差异即距离的数据,就可以用此方法找出一个直角坐标系(最多N-1维),使N个样方表示成N个点,而使点间的欧氏距离的平方正好等于原... 阅读全文

posted @ 2014-09-24 16:43 Lyon2014 阅读(11962) 评论(0) 推荐(0)

PCA主成份分析

摘要：1 背景介绍真实的训练数据总是存在各种各样的问题：1、比如拿到一个汽车的样本，里面既有以“千米/每小时”度量的最大速度特征，也有“英里/小时”的最大速度特征，显然这两个特征有一个多余。2、拿到一个数学系的本科生期末考试成绩单，里面有三列，一列是对数学的兴趣程度，一列是复习时间，还有一列是考试成绩... 阅读全文

posted @ 2014-09-24 16:37 Lyon2014 阅读(559) 评论(0) 推荐(0)

搬家啦，新家地址：http://www.lyon0804.com

随笔分类 - 生物信息

公告