随笔分类 -  [25] 生物信息学

计算生物信息学,计算生物学,生物统计学,生物数学,分子生物学,遗传学,医学遗传学
摘要:samtools的说明文档:http://samtools.sourceforge.net/samtools.shtml samtools是一个用于操作sam和bam文件的工具合集。包含有许多命令。以下是常用命令的介绍 1. view view命令的主要功能是:将sam文件转换成bam文件;然后对b 阅读全文
posted @ 2015-03-05 19:09 emanlee 阅读(73548) 评论(2) 推荐(5)
摘要:bwa的安装流程安装本软体总共需要完成以下两个软体的安装工作:1) BWA2) Samtools1.BWA的安装a.下载BWA (download from BWA Source Forge )http://bio-bwa.sourceforge.net/bwa.shtmlb.安装BWA$ tar ... 阅读全文
posted @ 2015-03-05 19:06 emanlee 阅读(18317) 评论(0) 推荐(0)
摘要:0.以下在系统CentOS 6.3 x86_64上操作1.试图运行程序,提示"libc.so.6: version `GLIBC_2.14' not found",原因是系统的glibc版本太低,软件编译时使用了较高版本的glibc引起的:[ghui@StuOSbin]$pwd/var/VMdisk... 阅读全文
posted @ 2015-03-03 20:55 emanlee 阅读(66548) 评论(1) 推荐(1)
摘要:在线画韦恩图(Draw venn diagram online)网站: http://jura.wi.mit.edu/bioc/tools/venn.php http://bioinformatics.psb.ugent.be/webtools/Venn/ http://bioinfogp.cnb. 阅读全文
posted @ 2014-08-23 22:08 emanlee 阅读(6096) 评论(0) 推荐(0)
摘要:错误:./mafsInRegion: error while loading shared libraries: libmysqlclient.so.15: cannot open shared object file: No such file or directory解决方法:1.下载 libm... 阅读全文
posted @ 2014-01-07 16:10 emanlee 阅读(9299) 评论(0) 推荐(0)
摘要:命令行: ~/sratoolkit/sratoolkit.2.3.2/bin/fastq-dump --split-spot --gzip xxxx.sra 报错信息: fastq-dump.2.3.2 err: name not found while resolving tree within 阅读全文
posted @ 2013-10-03 11:07 emanlee 阅读(9734) 评论(0) 推荐(0)
摘要:tophat输出结果junction.bedBED formatBED format provides a flexible way to define the data lines that are displayed in an annotation track. BED lines have ... 阅读全文
posted @ 2013-10-03 08:56 emanlee 阅读(3924) 评论(1) 推荐(0)
摘要:sra是NCBI 推出的存储高通量数据的格式,而平常我们工作用得多是fastq格式。如果需要把sra 转成fastq,从 http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?cmd=show&f=software&m=software&s=softwar... 阅读全文
posted @ 2013-04-15 16:16 emanlee 阅读(27764) 评论(0) 推荐(0)
摘要:(1)安装cufflinks tophat http://5527lok.blog.163.com/blog/static/6475158201242823917220/ (2)使用Tophat分析RNA-seq结果 http://5527lok.blog.163.com/blog/static/6 阅读全文
posted @ 2013-04-14 16:58 emanlee 阅读(17) 评论(0) 推荐(0)
摘要:接前一篇: 用R和BioConductor进行基因芯片数据分析(五):芯片间归一化 经过一系列的预处理,包括缺失值填充,中位数计算以及归一化,我们的数据终于可以用啦。 下面我们就来分析一下new population和old population的个体是否有差异表达基因。 判断一个基因是否差异表达有许多方法,最早使用的就是看log ratio的绝对值是否大于2,这种方法早已废弃。 下一个想... 阅读全文
posted @ 2012-12-05 17:25 emanlee 阅读(8148) 评论(0) 推荐(0)
摘要:接前一篇:用R和BioConductor进行基因芯片数据分析(四):芯片内归一化 上次进行了芯片内的归一化,但是我们的数据来自于10张芯片,为了让这10张芯片之间有可比性,需要进行芯片间归一化。 具体原理就不介绍了。 这里用到Bioconductor的一个package,叫做limma,以及其中的函数normalizeBetweenArrays() 由于normalizeBetweenAr... 阅读全文
posted @ 2012-12-05 17:12 emanlee 阅读(6352) 评论(0) 推荐(0)
摘要:接前一篇: 用R和BioConductor进行基因芯片数据分析(三):计算median 归一化是从normalization翻译过来的。归一化的目的是使各次/组测量或各种实验条件下的测量可以相互比较,消除测量间的非实验差异。非实验差异可能来源于样品制备,点样,杂交过程,杂交信号处理等。 归一化的方法有很多,对于寡聚核苷酸芯片(单通道,以Affymetrix为代表)和cDNA芯片(双通道,红绿染... 阅读全文
posted @ 2012-12-05 16:55 emanlee 阅读(10406) 评论(0) 推荐(0)
摘要:接前一篇: http://www.cnblogs.com/emanlee/archive/2012/12/05/2803144.html 我们已经知道要分析的数据对每个基因有3个重复测定值,经过缺失值填充后,每个基因都有3个可用值。 这一步很简单,就是取这3个值的中位数,即median。 方法很多,在excel中可以用median函数; 在R中以下代码进行操作: get_media... 阅读全文
posted @ 2012-12-05 16:23 emanlee 阅读(4143) 评论(0) 推荐(0)
摘要:以下分析用到的数据可以在这里(http://dl.getdropbox.com/u/308058/blog/raw_data_3_replicates.txt )下载,这个数据来自关于基因对蝴蝶迁移性的研究,样本是20个蝴蝶个体,其中10个是当地固有个体(old),另外10个是新迁入的个体(new),old和new个体两两随机配对,分别用不同颜色染料(波长分别为555和647nm)标记后,在同一张基因芯片上杂交;此外,每个基因在每张芯片上都重复点样3次,因此此数据是有3个replicates及10张芯片的双通道芯片。数据是样点的信号强度值,没有经过标准化处理的。拿到数据你会看到许多”NA”,这 阅读全文
posted @ 2012-12-05 15:09 emanlee 阅读(9708) 评论(2) 推荐(0)
摘要:R是开源的统计计算和作图语言,与S语言很相似。R的语法与其他语言很相似,功能很强大,可以到这里看看截图。主页是 http://www.r-project.org/ 可以点击这里下载R,这里有很权威的英文教程。本站提供几本中文教程(pdf)的打包下载,更多的随便搜索一下就可以找到。 BioConductor是建立在R语言环境上的生物芯片数据和基因组数据分析软件包,主页是 http://www... 阅读全文
posted @ 2012-12-05 14:33 emanlee 阅读(9255) 评论(0) 推荐(0)
摘要:bioconductor 包的安装安装R,并启动R。 > source("http://bioconductor.org/biocLite.R") > biocLite() Using R version 2.10.0 (R-devel), biocinstall version ... 阅读全文
posted @ 2012-12-05 00:19 emanlee 阅读(8517) 评论(0) 推荐(0)
摘要:GenePix Pro 3.0 是由 Axon Instruments(www.axon.com) 公司所开发之快速且具高质量的 DNA 微数组扫瞄工具,它也提供微数组数据的获取和分析软件。 GenePix 4000 系列扫瞄器利用同步双雷射(dual-laser)扫瞄系统及时产生比例影像(ratio image),此比例影像是标准的 24 位红、绿、蓝色合成影像,它们的内定值分别为 635、5... 阅读全文
posted @ 2012-04-30 22:25 emanlee 阅读(1557) 评论(0) 推荐(0)
摘要:SMD Schema SpecificationsColumn NameData TypeLengthNull?DescriptionREPORTER_COUNTNUMBER20YESLOG_REPORTER_COUNTNUMBER20,5YESSEQ_GENE_COUNTNUMBER20YESSEQ_COVERAGENUMBER35,25YESLOG_SEQ_RPKM_VALUENUMBER35,25YESPROBE_CATEGORYNUMBER3YESSEQ_RPKM_VALUENUMBER35,25YESCH1DL_MEANNUMBER20YESCH2DL_MEANNUMBER20YES 阅读全文
posted @ 2012-04-25 22:26 emanlee 阅读(667) 评论(0) 推荐(0)
摘要:Tags in a [Term] stanza The OBO Flat File Format Specification, version 1.0Required tagsid The unique id of the current term. This can be any string. This tag must always be the first tag in any term description Example: id: CAR:0000001 name The term name. Any term may only have one name defined. If 阅读全文
posted @ 2012-04-13 20:23 emanlee 阅读(1280) 评论(0) 推荐(0)
摘要:This diagram would be interpreted as follows: A is a B B is part of C we can infer that A is part of C The is a relation The is a relation in GO is very simple: if we say A is a B... 阅读全文
posted @ 2012-04-13 17:34 emanlee 阅读(420) 评论(0) 推荐(0)