摘要: 原生bash不支持简单的数学运算,但是可以通过其他命令来实现,例如 awk 和 expr,expr 最常用。 expr 是一款表达式计算工具,使用它能完成表达式的求值操作。 例如,两个数相加(注意使用的是反引号 ` 而不是单引号 '): #!/bin/bash val=`expr 2 + 2` ec 阅读全文
posted @ 2017-08-08 01:16 弗雷赛斯 阅读(293) 评论(0) 推荐(0) 编辑
摘要: 我们可以在执行 Shell 脚本时,向脚本传递参数,脚本内获取参数的格式为:$n。n 代表一个数字,1 为执行脚本的第一个参数,2 为执行脚本的第二个参数,以此类推…… 以下实例我们向脚本传递三个参数,并分别输出,其中 $0 为执行的文件名: #!/bin/bash echo "Shell 传递参数 阅读全文
posted @ 2017-08-08 00:49 弗雷赛斯 阅读(297) 评论(0) 推荐(0) 编辑
摘要: sra文件转换为fastq格式 fastq-dump -h --split-3 也就是说如果SRA文件中只有一个文件,那么这个参数就会被忽略。如果原文件中有两个文件,那么它就会把成对的文件按*_1.fastq,*_2.fastq这样分开。如果还出现了第三个文件,就意味着这个文件本身是未成配对的部分。 阅读全文
posted @ 2017-08-08 00:37 弗雷赛斯 阅读(5748) 评论(0) 推荐(0) 编辑
摘要: 第一个shell脚本 #! 是一个约定的标记,它告诉系统这个脚本需要什么解释器来执行,即使用哪一种 Shell 将上面的代码保存为 test.sh,并 cd 到相应目录 Shell 变量 除了显式地直接赋值,还可以用语句给变量赋值,如: 以上语句将 /etc 下目录的文件名循环出来 使用一个定义过的 阅读全文
posted @ 2017-08-07 11:02 弗雷赛斯 阅读(258) 评论(0) 推荐(0) 编辑
摘要: 监督学习--supervised learning 假如说你想预测房价。 你收集了一些房价的数据,把这些数据画出来,看起来是这个样子:横轴表示房子的面积,单位是平方英尺,纵轴表示房价,单位是千美元。那基于这组数据,假如你有一个朋友,他有一套 750 平方英尺房子,现在他希望把房子卖掉,他想知道这房子 阅读全文
posted @ 2017-08-05 20:26 弗雷赛斯 阅读(229) 评论(0) 推荐(0) 编辑
摘要: 在使用FastQC之后,如果我们发现了一些问题(序列质量不高),那么我们该使用什么样的工具,去解决这些问题呢? fastx Toolkit是包含处理fastq/fasta文件的一系列的工具,它是基于java开发的,我们高通量测序最常用到的是使用这个软件进行reads的裁剪(trim) FASTQ-t 阅读全文
posted @ 2017-08-03 17:47 弗雷赛斯 阅读(1090) 评论(1) 推荐(0) 编辑
摘要: 1、下载fastqc 2、解压 3、 给予执行权限,否则执行的时候会显示没有权限 cd FastQCchmod 755 fastqc 4、加入到PATH export PATH=/home/h/FastQC/:$PATH 4、加入到PATH 5、测试 fastqc --help 5、测试 使用例子 阅读全文
posted @ 2017-08-03 10:53 弗雷赛斯 阅读(4095) 评论(0) 推荐(0) 编辑
摘要: HISAT samtools HTSeq 阅读全文
posted @ 2017-08-03 02:05 弗雷赛斯 阅读(639) 评论(0) 推荐(0) 编辑
摘要: https://trace.ncbi.nlm.nih.gov/Traces/study/?acc=PRJNA323422 lne是perl的参数,效果是: perl接收你的键盘输入(用后面的代码)处理后,输出一个换行,然后等待接收下一个输入 perl -lne '$id=substr($_,0,6) 阅读全文
posted @ 2017-08-03 01:22 弗雷赛斯 阅读(763) 评论(0) 推荐(0) 编辑
摘要: 1.创建一个本地项目,比如/d/text文件夹 2.建立本地仓库 首先进入text文件夹 初始化执行指令: 将所有文件添加到仓库执行指令: 执行指令(双引号内是提交注释): git commit -m "提交文件" 执行指令(双引号内是提交注释): 3.关联github仓库 到github text 阅读全文
posted @ 2017-08-03 00:43 弗雷赛斯 阅读(227) 评论(0) 推荐(0) 编辑
摘要: 使用cbind()函数连接多个向量来创建数据帧。此外,使用rbind()函数合并两个数据帧 使用merge()函数合并两个数据帧。数据帧必须具有相同的列名称,在其上进行合并 melt()拆分数据和cast()数据重构 连接字符串 - paste()函数 格式化数字和字符串 - format()函数 阅读全文
posted @ 2017-08-03 00:33 弗雷赛斯 阅读(348) 评论(0) 推荐(0) 编辑
摘要: sratookit 下载后解压 移动到专门安装生物信息软件的目录下 加入环境变量 测试 下载测试文件SRR390728,默认存放在家目录下的ncbi文件夹中 转换sra文件的套路: -O 指定输出路径 --gzip 指定输出格式为gzip压缩格式(fastqc软件可以直接识别gzip压缩的文件) - 阅读全文
posted @ 2017-08-03 00:30 弗雷赛斯 阅读(429) 评论(0) 推荐(0) 编辑
摘要: 数据分析与解读 1. Data Cleaning 从原始数据(Raw Data)到干净数据(Clean Data)的过程,有人翻译成“数据清洗”,实在叫不习惯 Illumina测序仪下机的数据通常为Bcl格式,是将同一个测序通道(Lane)所有样品的数据混杂在一起的,所以公司一般不会提供Bcl文件。 阅读全文
posted @ 2017-08-03 00:29 弗雷赛斯 阅读(1373) 评论(0) 推荐(0) 编辑
摘要: 在单菌基因组的组装结果中,N50和N90代表什么意思? 大于N50长度的序列占基因组总长的50%,大于N90长度的序列占基因组总长的90%。 1、N50和N90是基因组组装中常用的组装指标,其含义为,将序列按照长度从大到小排列,依次计算大于该序列长度的序列总长,找到序列总长度刚好大于基因组总长度的5 阅读全文
posted @ 2017-08-03 00:17 弗雷赛斯 阅读(1562) 评论(0) 推荐(0) 编辑
摘要: 在微生物测序中,样本的准备从根本上是确保获得高质量DNA的前提,而样本准备也正是让众多微生物科研工作者感到困扰的重要一步。今天就给大家分类介绍一下常见的微生物样本类型及采样方法 微生物测序样本准备方法 医口样本类型 样本种类推荐生物学重复 肠道 粪便,粘膜 6, 推荐 10 液体 尿,血液,脑髓液, 阅读全文
posted @ 2017-08-03 00:14 弗雷赛斯 阅读(3621) 评论(0) 推荐(0) 编辑
摘要: Microbiota 微生物群 微生物群是指研究动植物体上共生或病理的微生物生态群体。微生物群包括细菌、古菌、原生动物、真菌和病毒。研究表明其在宿主的免疫、代谢和激素等方面非常重要。近义词Microbiome微生物组即包括微生物,又包括其基因组 Microbiota 微生物群 微生物群是指研究动植物 阅读全文
posted @ 2017-08-03 00:13 弗雷赛斯 阅读(870) 评论(0) 推荐(0) 编辑
摘要: 扩增子常见问题 01 实验室检测的DNA浓度很高,送到公司检测之后浓度却比较低呢? 1、老师在实验室多采用Nanodrop对DNA浓度进行检测,而在公司我们会结合Qubit、Nanodrop、琼脂糖电泳三种方法检测DNA样品的质量; 2、由于不同检测方法的原理不同,所以检测出的结果也会存在一定的差异 阅读全文
posted @ 2017-08-03 00:13 弗雷赛斯 阅读(5053) 评论(0) 推荐(0) 编辑
摘要: 网络图 Network 网络图虽然给人高大上的感觉,但是由于信息太多,无法给读者提供读有效的可读信息或是读者不知道该理解什么,总是让人望尔却步。那是因为大家太不了解网络,自己读不懂网络想表达的意思及其重要性。 因此我要举一个网络分析重要的例子,大家都知道2012年诺贝尔奖得主Yamanaka提出的诱 阅读全文
posted @ 2017-08-03 00:12 弗雷赛斯 阅读(4186) 评论(0) 推荐(0) 编辑
摘要: 三元图/三元相图 Ternary Plot 三元图有6种英文叫法,其中ternary plot最为常用。三元图是重心图的一种,它有三个变量,但需要三者总和为恒定值。在一个等边三角形坐标系中,图中某一点的位置代表三个变量间的比例关系。常用于物理化学、 岩石学、矿物学、冶金学和其它物理科学,用于表示在同 阅读全文
posted @ 2017-08-03 00:11 弗雷赛斯 阅读(5528) 评论(0) 推荐(0) 编辑
摘要: 火山图 Volcano plot 在统计学上,火山图是一种类型的散点图,被用于在大数据中快速鉴定变化。由于它的形成像火山喷发的样子,所以被称为火山图。和上文讲的曼哈顿图类似。 火山图基本元素 火山图也有很多种样式,在生物学高通量测序结果中,常见有的X和Y轴分别为aboundance 和 fold-c 阅读全文
posted @ 2017-08-03 00:10 弗雷赛斯 阅读(3791) 评论(0) 推荐(0) 编辑
摘要: 韦恩图 Venn Diagram Venn Diagram,也称韦恩图、维恩图、文氏图,用于显示元素集合重叠区域的图示。 韦图绘制工具 常用R语言的VennDiagram包绘制,输出PDF格式方便修改。此外还有非常多的在线工具,使用方便。详见“轻松绘制各种Venn图” 韦恩图在扩增子中用途 展示各样 阅读全文
posted @ 2017-08-03 00:10 弗雷赛斯 阅读(4747) 评论(0) 推荐(0) 编辑
摘要: 曼哈顿图 Manhattan Plot 曼哈顿图本质上是一个散点图,用于显示大量非零大范围波动数值,最早应用于全基因组关联分析(GWAS)研究展示高度相关位点。它得名源于样式与曼哈顿天际线相似(如下图)。 近几年,在宏基因组领域,尤其是差异OTU结合分类学结果,采用Manhattan plot展示有 阅读全文
posted @ 2017-08-03 00:09 弗雷赛斯 阅读(10224) 评论(0) 推荐(0) 编辑
摘要: 热图是使用颜色来展示数值矩阵的图形。通常还会结合行、列的聚类分析,以表达实验数据多方面的结果。 热图在生物学领域应用广泛,尤其在高通量测序的结果展示中很流行,如样品-基因表达,样品-OTU相对丰度矩阵非常适合采用热图呈现。 热图优点 因为人读数字需要思考和比较,而对颜色识别能力非常强,采用颜色的深浅 阅读全文
posted @ 2017-08-02 23:25 弗雷赛斯 阅读(6880) 评论(0) 推荐(0) 编辑
摘要: 散点图 数据点在直角坐标系平面上的分布图。在宏基因组领域,散点图常用于展示样品组间的Beta多样性,常用的分析方法有主成分分析(PCA),主坐标轴分析(PCoA/MDS)和限制条件的主坐标轴分析(CPCoA/CCA/RDA)。 Beta多样性 Beat多样性是生态学概念,专指不同组或生态位间物种组成 阅读全文
posted @ 2017-08-02 23:24 弗雷赛斯 阅读(4434) 评论(0) 推荐(0) 编辑
摘要: 查看默认安装包的位置 移除包 remove.packages("package_name") 查看所有安装的包 移除包 remove.packages("package_name") 查看所有安装的包 按 q 退出包列表 获取当前在R环境中加载的所有包 search() 获取当前在R环境中加载的所有 阅读全文
posted @ 2017-08-02 16:58 弗雷赛斯 阅读(498) 评论(0) 推荐(0) 编辑
摘要: 有时候可能想分解出某些值然后丢弃它们,可以使用诸如 _ 或者 ign(ignored)等常用来表示待丢弃值的变量名: record = ('ACME', 50, 123.45, (12, 18, 2012))name, *_, (*_, year) = recordprint(name)print( 阅读全文
posted @ 2017-08-02 09:38 弗雷赛斯 阅读(1277) 评论(0) 推荐(0) 编辑
摘要: 如果要进行整除,使用 // 运算符,它将返回商的整数部分 >>> 4 // 3.01.0 Python中单行注释以 # 开头,例如: 多行注释用三个单引号 ''' 或者三个双引号 """ 将注释括起来,例如: '''这是多行注释,用三个单引号这是多行注释,用三个单引号 这是多行注释,用三个单引号'' 阅读全文
posted @ 2017-08-02 09:33 弗雷赛斯 阅读(354) 评论(0) 推荐(0) 编辑
摘要: 1、下载jdk8 登录网址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 选择对应jdk版本下载 2、解压 3、然后将文件夹jdk1.8.0_144移动到目录/opt下 4、修改 阅读全文
posted @ 2017-08-02 09:32 弗雷赛斯 阅读(21666) 评论(0) 推荐(1) 编辑
摘要: 启动docker docker安装后出现Cannot connect to the Docker daemon You need to add user into docker group. by 'sudo gpasswd -a xxxx docker' (xxx is your user nam 阅读全文
posted @ 2017-08-02 09:15 弗雷赛斯 阅读(3430) 评论(0) 推荐(0) 编辑
摘要: 登录Linux系统后,呈现在眼前的是这样一个界面: fs@ehbio:~$ 首先解释下出现的这几个字母和符号: fs:用户名 ehbio:如果是登录的远程服务器,则为宿主机的名字 ~:代表家目录, 在我们进入新的目录后,这个地方会跟着改变 $:用来指示普通用户输入命令的地方;对根用户来说一般是 # 阅读全文
posted @ 2017-08-02 09:01 弗雷赛斯 阅读(462) 评论(0) 推荐(0) 编辑
摘要: 箱线图 箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在宏基因组领域,常用于展示样品组中各样品Alpha多样性的分布 箱线图 箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。 阅读全文
posted @ 2017-08-01 21:48 弗雷赛斯 阅读(5858) 评论(0) 推荐(0) 编辑
摘要: 一些常用基本概念的介绍: flowcell流动池 是指Illumina测序时,测序反应发生的位置,1个flowcell含有8条lane lane通道 每一个flowcell上都有8条泳道,用于测序反应,可以添加试剂,洗脱等等 tile 每一次测序荧光扫描的最小单位 reads 指测序的结果,1条序列 阅读全文
posted @ 2017-08-01 21:47 弗雷赛斯 阅读(2060) 评论(0) 推荐(0) 编辑
摘要: 2017年4月28日,核酸研究(Nucleic Acids Research)杂志上,在线公布了一个可搜索微生物次生代谢物合成基因组簇的综合性数据库antiSMASH数据库 4.0版,前3版年均引用250次,累计引物1600+;可实现基因组与基因组之间的相关天然产物合成基因簇的查询和预测。 临床上使 阅读全文
posted @ 2017-08-01 21:46 弗雷赛斯 阅读(3424) 评论(0) 推荐(0) 编辑
摘要: 本示例的的数据来自文章《Moving pictures of the human microbiome》,Genome Biology 2011,取样来自两个人身体四个部位五个时间点 进入环境 source activate qiime2-2017.8 退出环境 source deactivate 阅读全文
posted @ 2017-08-01 21:43 弗雷赛斯 阅读(3319) 评论(0) 推荐(0) 编辑
摘要: 宏基因组测序: 浓度>=50ng/ul OD260/280:1.8-2.0 DNA两次需要量>=3ug 宏基因组测序需要提供什么样品要求? (1)提供环境微生物的基因组DNA或者扩增产物,OD值在1.8~2.0 之间;样品浓度大于30 ng/ul;每次样品制备需要10μg样品,如果需要多次制备样品, 阅读全文
posted @ 2017-08-01 21:39 弗雷赛斯 阅读(2619) 评论(0) 推荐(0) 编辑
摘要: kb=千碱基 kilobase nt=核苷酸 nucleotide bp=碱基对 base pair kb=千碱基 kilobase nt=核苷酸 nucleotide bp=碱基对 base pair 高通量测序 高通量测序技术(High-throughput sequencing,HTS),有些 阅读全文
posted @ 2017-08-01 21:37 弗雷赛斯 阅读(2143) 评论(0) 推荐(0) 编辑
摘要: 一套完整的数据分析流程 , 如下图所示 从图中可以看到,整个流程包括读取数据,整洁数据,数据探索和交流部分。经过前两部分, 我们可以得到一个整理好的数据,它的每一行都是一个样本 , 每一列是一个变量。 然后我们就可以进入最核心的数据探索部分。数据探索包括数据转换,可视化,建模三部分。数据转换的内容包 阅读全文
posted @ 2017-08-01 21:35 弗雷赛斯 阅读(1380) 评论(0) 推荐(0) 编辑
摘要: 获取帮助文档,查看命令或函数的使用方法、事例或适用范围 > ?command > ??command #深度搜索或模糊搜索用此命令 > example(command) #得到命令的例子 R语言不支持多行注释,但可以使用一个小技巧,如下 if(FALSE) { "This is a demo for 阅读全文
posted @ 2017-08-01 21:23 弗雷赛斯 阅读(761) 评论(0) 推荐(0) 编辑
摘要: 矩阵加法就是相同位置的数字加一下,矩阵减法也类似 矩阵乘以一个常数,就是所有位置都乘以这个数 矩阵乘以一个常数,就是所有位置都乘以这个数 矩阵乘以矩阵 计算规则是,第一个矩阵第一行的每个数字(2和1),各自乘以第二个矩阵第一列对应位置的数字(1和1),然后将乘积相加( 2 x 1 + 1 x 1), 阅读全文
posted @ 2017-08-01 21:21 弗雷赛斯 阅读(849) 评论(0) 推荐(0) 编辑
摘要: 条形图 在R语言中创建条形图的基本语法是 barplot(H, xlab, ylab, main, names.arg, col) H是包含在条形图中使用的数值的向量或矩阵 xlab是x轴的标签 ylab是y轴的标签 main是条形图的标题 names.arg是在每个条下出现的名称的向量 col用于 阅读全文
posted @ 2017-08-01 21:00 弗雷赛斯 阅读(2780) 评论(0) 推荐(0) 编辑