摘要: 之前一直对软件包的报错没有认识,因为用的都是一些软件工程设计非常好的软件(BWA、Numpy等)。就算是用Python、Perl、R也都是用一些非常常见的包,所以很难碰到奇葩的报错,你随便怎么用都不会卡住,因为设计者早就料想到了各种情况。 但现在开始研究单细胞,大家都自立门户开发自己的包,实际情况是搞生信的人写代码的能力都不咋地,写出来的工具漏洞百出,真是折磨死我们这些使用者。 案例一:使用R...阅读全文
posted @ 2017-08-29 21:47 Bioinformation 阅读(51) 评论(0) 编辑
摘要: 每过一段时间就要读一遍,看看自己现在到底在哪个等级了。 前几天去南京参加两年一度的全国大会CCBSB2014,今年是第六届,见到许多熟识的前辈和老朋友,也结识了不少新朋友。相比于两年前在哈尔滨开的第五届大会,参会人数又多了100多。连大会特邀报告算上,总共76位学者做口头报告,其中30位学者我之前并阅读全文
posted @ 2017-01-09 15:49 Bioinformation 阅读(415) 评论(0) 编辑
摘要: 转自:测序中国 由测序中国发起的“NGS十周年接龙”活动春节前的最后一波正在来袭。受华中科技大学生命科学与技术学院教授薛宇邀请,今天,由哈佛大学教授刘小乐来分享她与生物信息学的故事。 从北大到斯坦福,生物与计算机相遇 和很多人一样,在少年时期我就有了自己的梦想。我的哥哥比我大七岁,他进入中国农业大学的时候,我上五年级,是他把我带到了神奇的生物世界。在初中阶段,我的班主任是生物老师,我的生物学家梦想...阅读全文
posted @ 2017-09-28 17:44 Bioinformation 阅读(22) 评论(0) 编辑
摘要: 转自:http://blog.csdn.net/abcjennifer/article/details/7359370 ROC曲线指受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感...阅读全文
posted @ 2017-09-12 17:16 Bioinformation 阅读(56) 评论(0) 编辑
摘要: 之前一直对软件包的报错没有认识,因为用的都是一些软件工程设计非常好的软件(BWA、Numpy等)。就算是用Python、Perl、R也都是用一些非常常见的包,所以很难碰到奇葩的报错,你随便怎么用都不会卡住,因为设计者早就料想到了各种情况。 但现在开始研究单细胞,大家都自立门户开发自己的包,实际情况是搞生信的人写代码的能力都不咋地,写出来的工具漏洞百出,真是折磨死我们这些使用者。 案例一:使用R...阅读全文
posted @ 2017-08-29 21:47 Bioinformation 阅读(51) 评论(0) 编辑
摘要: single-molecule RNA fluorescence in situ hybridization (RNA smFISH) 单分子荧光原位杂交(smFISH)是一种新的基因表达分析方法,能报告转录本丰度和空间定位。但到目前为止,smFISH还不能实现基因组范围的分析。阅读全文
posted @ 2017-08-29 00:33 Bioinformation 阅读(31) 评论(0) 编辑
摘要: 前言 现在Python3 被越来越多的开发者所接受,同时让人尴尬的是很多遗留的老系统依旧运行在 Python2 的环境中,因此有时你不得不同时在两个版本中进行开发,调试。 如何在系统中同时共存 Python2 和 Python3 是开发者不得不面对的问题,一个利好的消息是,Anaconda 能完美解决Python2 和 Python3 的共存问题,而且在 Windows 平台经常出现安装依赖包(比...阅读全文
posted @ 2017-08-28 11:01 Bioinformation 阅读(457) 评论(0) 编辑
摘要: 一般线性模型、混合线性模型、广义线性模型 广义线性模型GLM很简单,举个例子,药物的疗效和服用药物的剂量有关。这个相关性可能是多种多样的,可能是简单线性关系(发烧时吃一片药退烧0.1度,两片药退烧0.2度,以此类推;这种情况就是一般线性模型),也可能是比较复杂的其他关系,如指数关系(一片药退烧0.1度,两片药退烧0.4度),对数关系等等。这些复杂的关系一般都可以通过一系列数学变换变成线性关系,以此...阅读全文
posted @ 2017-08-25 21:35 Bioinformation 阅读(29) 评论(0) 编辑
摘要: 参考: 如何通俗易懂地解释「协方差」与「相关系数」的概念?(非常通俗易懂) 浅谈协方差矩阵 方差(variance) 集合中各个数据与平均数之差的平方的平均数。在概率论与数理统计中,方差(Variance)用来度量随机变量和其数学期望(即均值)之间的偏离程度。 方差越大,数据的离散程度就越大。 协方差(covariance) 协方差表示的是两个变量总体误差的方差,这与只表示一个变量误差的方差不同...阅读全文
posted @ 2017-08-25 21:00 Bioinformation 阅读(20) 评论(0) 编辑
摘要: 通俗理解:带有荧光标记的DNA探针可以用于检测活体内特定基因的表达情况,活体成像。 荧光原位杂交方法是一种物理图谱绘制方法,使用荧光素标记探针,以检测探针和分裂中期的染色体或分裂间期的染色质的杂交。荧光原位杂交(fluorescence in situ hybridization,FISH)是在20世纪80年代末在放射性原位杂交技术的基础上发展起来的一种非放射性分子细胞遗传技术,以荧光标记取代同位...阅读全文
posted @ 2017-08-25 14:49 Bioinformation 阅读(19) 评论(0) 编辑
摘要: 转自:http://www.statisticshowto.com/explanatory-variable/ What is an Explanatory Variable? An explanatory variable is a type of independent variable. The two terms are often used interchangeably. But th...阅读全文
posted @ 2017-08-16 21:14 Bioinformation 阅读(8) 评论(0) 编辑
摘要: 在做基因表达分析时必然会要做差异分析(DE) DE的方法主要有两种: Fold change t-test fold change的意思是样本质检表达量的差异倍数,log2 fold change的意思是取log2,这样可以可以让差异特别大的和差异比较小的数值缩小之间的差距。 Q-value,是P-阅读全文
posted @ 2017-08-16 12:08 Bioinformation 阅读(487) 评论(0) 编辑
摘要: 很多时候我们需要从GEO(https://www.ncbi.nlm.nih.gov/geo/)下载RNA-seq数据,一个典型的下载页面是https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE76381(搜 GSE76381)。 这里你会看到数据的总览: GSM2268339 1772067089_A01 GSM2268340 17...阅读全文
posted @ 2017-08-15 16:45 Bioinformation 阅读(71) 评论(0) 编辑
摘要: 作者:greenhillman MultiQC homepage: http://multiqc.info功能:把多个测序结果的qc结果整合成一个报告。支持fastqc、trimmomatic、bowtie、STAR等多种软件结果的整合。 Installation 安装 在已经安装Anaconda的情况下,安装MultiQC非常简单,只要运行如下命令即可:#condaconda install -...阅读全文
posted @ 2017-08-14 22:53 Bioinformation 阅读(87) 评论(0) 编辑
摘要: R不必说,数据统计分析可视化的必备语言,R包开发的门槛比较低,所以现在随便一篇文章都会发表一个自己的R包,这样有好处(各种需求早有人帮你解决了)也有坏处(R包太多,混乱,新手上手较难)。作为生信工程师,日常就是查看别人写的R包,分析数据,然后借鉴、修改,根据自己的需求开发新的R包。 参考: http://blog.fens.me/r-build-package/ R包开发 如何系统地学习 R 语...阅读全文
posted @ 2017-08-14 17:39 Bioinformation 阅读(29) 评论(0) 编辑
摘要: 只有注册用户登录后才能阅读该文。阅读全文
posted @ 2017-08-12 18:31 Bioinformation 阅读(14) 评论(0) 编辑
摘要: 转自:http://blog.fens.me/r-apply/ 前言 刚开始接触R语言时,会听到各种的R语言使用技巧,其中最重要的一条就是不要用循环,效率特别低,要用向量计算代替循环计算。 那么,这是为什么呢?原因在于R的循环操作for和while,都是基于R语言本身来实现的,而向量操作是基于底层的C语言函数实现的,从性能上来看,就会有比较明显的差距了。那么如何使用C的函数来实现向量计算呢,就是...阅读全文
posted @ 2017-08-11 17:57 Bioinformation 阅读(17) 评论(0) 编辑
摘要: 非常有必要搞清楚统计学种一些常用的分布!!! 离散型随机变量分布 1.两点分布/伯努利分布 伯努利分布是二项分布在n=1时的特例。一次随机试验,成功概率为p,失败概率为q=1-p。 伯努利分布 2.二项分布 二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布阅读全文
posted @ 2017-08-10 16:37 Bioinformation 阅读(50) 评论(0) 编辑
摘要: Quantitative single-cell rna-seq with unique molecular identifers 这篇文章论证了 scRNA-seq 使用UMI来计算基因表达量的合理性和优势。 这里主要研究如何分析 scRNA-seq 的数据,如何处理ERCC和UMI。 背景: however, losses in cdna synthesis and bias in cdn...阅读全文
posted @ 2017-08-09 17:02 Bioinformation 阅读(30) 评论(0) 编辑
摘要: 转自http://blog.csdn.net/wangtaoking1/article/details/9838571 主要记录一下Shell脚本中的命令的并发和串行执行。 默认的情况下,Shell脚本中的命令是串行执行的,必须等到前一条命令执行完后才执行接下来的命令,但是如果我有一大批的的命令需要执行,而且互相又没有影响的情况下(有影响的话就比较复杂了),那么就要使用命令的并发执行了。 看下...阅读全文
posted @ 2017-08-08 20:23 Bioinformation 阅读(24) 评论(0) 编辑
摘要: 转自:http://blog.csdn.net/wa2003/article/details/45887055 R语言提供了批量处理函数,可以循环遍历某个集合内的所有或部分元素,以简化操作。 这些函数底层是通过C来实现的,所以效率也比手工遍历来的高效。批量处理函数有很重要的apply族函数:lapply sapply apply tapply mapply。apply族函数是高效能计算的运算向量化...阅读全文
posted @ 2017-08-07 20:54 Bioinformation 阅读(8) 评论(0) 编辑
摘要: Bioconductor for Genomic Data Science ftp://ftp.ncbi.nlm.nih.gov/genomes/archive/old_genbank/Bacteria/Halobacterium_sp_uid217/ 下载:AE004437.faa文件阅读全文
posted @ 2017-08-07 17:42 Bioinformation 阅读(26) 评论(0) 编辑
TOP