开始

随笔分类 -  生物信息

摘要:pandaseq是一款非常好用的序列拼接软件,项目传送:https://github.com/neufeld/pandaseq/ (编译安装前需要libtool-devel)所谓科技服务和科研态度有的时候真的不统一,在pandaseq拼接的时候,如果输出fastq文件,overlap部分,如果错配的... 阅读全文
posted @ 2015-08-06 16:54 Lyon2014 阅读(662) 评论(1) 推荐(0)
摘要:16S数据质控流程,一次下机lane包括很多的项目,每个项目有独立的合同号,一个项目可能包含16S或者ITS两种,通过一个完整的pipeline,将上游拆分好的数据全部整理成可以直接分析的数据。原本这个工作是通过并行的sge实现,是运行层面的并行,现在在程序层面实现并行处理,可以脱离sge系统工作。... 阅读全文
posted @ 2015-06-25 13:41 Lyon2014 阅读(419) 评论(0) 推荐(0)
摘要:之前用c写过一个程序,查找reads中是否包含了adaptor,如果检测到的话就过滤掉含有adaptor的reads,这次在过滤完数据之后发现接头序列比较多,为了提升组装效果,又不能很大地影响数据量,需要对接头进行截断处理,并过滤过短的reads,用python写了一个简短的程序,指定超过3个错配以... 阅读全文
posted @ 2015-05-29 13:11 Lyon2014 阅读(2744) 评论(0) 推荐(0)
摘要:为一个客户做了关于每个差异otu在时间点上变化的折线图,使用python第一次做批量作图的程序,虽然是很简单的折线图,但是也是第一次使用matplotlib的纪念。ps:在第一个脚本上做了点小的改动,加上了分类信息作为图的标题,加上网格便于对照y轴丰度值,x轴的名称更加接近样品的实际名称。 1 fr... 阅读全文
posted @ 2015-05-25 17:56 Lyon2014 阅读(287) 评论(0) 推荐(0)
摘要:今天开始所有的工作脚本全都从perl转变到python,开发速度明显降低了不少,相信以后随着熟练度提升会好起来。贴一下今天一个工作代码,由于之前去一家小公司测序时,序列长度竟然都没有达到要求,为了之后的索赔事宜,写了个脚本统计所有序列的结果,主要包括总的reads数,bases数,和达到测序策略要求... 阅读全文
posted @ 2015-05-12 14:57 Lyon2014 阅读(424) 评论(0) 推荐(0)
摘要:1 依赖软件:bowtie,bowtie2,samtools,boost c++ library2 建立索引文件: bowtie包括bowtie,bowtie-build,bowtie-inspect bowtie2包括bowtie2,bowtie2-build,bowtie2-inspect,默认会找bowtie2 bowtie-build运行结果会得到一... 阅读全文
posted @ 2015-03-19 21:46 Lyon2014 阅读(1211) 评论(0) 推荐(0)
摘要:wgethttp://www.cbcb.umd.edu/software/glimmer/glimmer302.tar.gztar xzfglimmer302.tar.gzcd glimmer3.02cd srcmake >out 2>err错误排除:1.delcher.cc:284:17: error: 'strlen' was notdeclared in this scope等类... 阅读全文
posted @ 2015-03-19 21:41 Lyon2014 阅读(744) 评论(0) 推荐(0)
摘要:之前安装过一次Augustus,由于节点重新部署后,原来安装的硬盘被格掉了,今天重新安装的时候出了一些问题,记录一下。1. 需要boost,安装好boost之后,虽然将其加入到~/.bashrc配置中,但是编译还是会找不到boost库,我就将Makefile里面LIBS一行注释,改为 -L/.../lib "/.../lib"是我的boost安装后lib路径,这样可以解决boost找不到的问题2.... 阅读全文
posted @ 2015-03-19 21:34 Lyon2014 阅读(620) 评论(0) 推荐(0)
摘要:gene structure prediction methods基因预测的方法有很多。维基百科:http://en.wikipedia.org/wiki/List_of_gene_prediction_software;http://www.geneprediction.org上提供了大量的基因预... 阅读全文
posted @ 2014-10-31 15:16 Lyon2014 阅读(3019) 评论(0) 推荐(0)
摘要:嵌合体序列指在pcr过程中,两条不同的序列产生杂交扩增的序列,属于人工污染,在ITS和16S分析中,应该首先去除,USearch提供去除嵌合体的功能usearch-uchime_ref reads.fna -db reference.fna -strand plus-nonchimerasnonch... 阅读全文
posted @ 2014-10-24 15:02 Lyon2014 阅读(2105) 评论(1) 推荐(0)
摘要:1 barplot(data$v2,names.arg=data$v1),names太多会导致显示不全,可以加上las=2,使names旋转90度显示2 names太长,显示不全,利用par(mar=c(a,b,c,d))改变左图边界宽度,abcd依次是下,左,上,右边界3 高丰度的数量级太大... 阅读全文
posted @ 2014-10-21 14:50 Lyon2014 阅读(318) 评论(0) 推荐(0)
摘要:shannon菌群多样性指数H=-∑(Pi)(㏑Pi)Pi=样品中属于第i种的个体的比例,如样品总个体数为N,第i种个体数为ni,则Pi=ni/N;各种之间,个体分配越均匀,H值就越大。如果每一个体都属于不同的种,多样性指数就最大;如果每一个体都属于同一种,则其多样性指数就最小Dominance:随... 阅读全文
posted @ 2014-10-17 10:57 Lyon2014 阅读(4465) 评论(0) 推荐(0)
摘要:在对之前的ITS数据(454数据)做split时,发现有一些reads没有被匹配上,但是barcode能够完全匹配,虽然之后的primer在中间漏了一个碱基,导致后面的碱基全部误匹配,从而导致这条reads没有被匹配上的问题。终于解决Qiime的问题后,使用split_libraries.py 做切... 阅读全文
posted @ 2014-10-13 16:24 Lyon2014 阅读(328) 评论(0) 推荐(0)
摘要:由于Qiime出了点问题,ITS项目先缓几天,这两天先忙着做meta的内容。物种丰度计算准备工作:1 使用SOAPAligner对过滤好的数据进行比对,得到相应的.soap文件,里面记录匹配到的reads的情况;2 还需要将所有用到的reference做一个TAX,tax文件记录referenc... 阅读全文
posted @ 2014-10-11 15:16 Lyon2014 阅读(3553) 评论(0) 推荐(0)
摘要:不知道有什么好办法可以让primer允许漏配,现在仅仅是允许错配,还是有一些没有配上,454数据有些primer漏配了一些,下一步解决这个问题 1 #include 2 #include 3 #include 4 #include 5 #include 6 #include ... 阅读全文
posted @ 2014-10-08 17:36 Lyon2014 阅读(383) 评论(0) 推荐(0)
摘要:Qiime安装参考资料:http://blog.sina.com.cn/s/blog_83f77c940101h2rp.htmlQiime script官方说明http://qiime.org/scripts/index.html一般ITS数据简要分析过程reference下载:https://gi... 阅读全文
posted @ 2014-09-26 11:21 Lyon2014 阅读(6608) 评论(0) 推荐(0)
摘要:来源:http://blog.sina.com.cn/s/blog_670445240101nlss.html1 背景介绍这是一种排序方法。假设我们对N个样方有了衡量它们之间差异即距离的数据,就可以用此方法找出一个直角坐标系(最多N-1维),使N个样方表示成N个点,而使点间的欧氏距离的平方正好等于原... 阅读全文
posted @ 2014-09-24 16:43 Lyon2014 阅读(11962) 评论(0) 推荐(0)
摘要:1 背景介绍真实的训练数据总是存在各种各样的问题:1、 比如拿到一个汽车的样本,里面既有以“千米/每小时”度量的最大速度特征,也有“英里/小时”的最大速度特征,显然这两个特征有一个多余。2、 拿到一个数学系的本科生期末考试成绩单,里面有三列,一列是对数学的兴趣程度,一列是复习时间,还有一列是考试成绩... 阅读全文
posted @ 2014-09-24 16:37 Lyon2014 阅读(559) 评论(0) 推荐(0)