06 2020 档案
机器学习笔记-朴素贝叶斯
摘要:朴素贝叶斯(Naive Bayes)是基于贝叶斯定理和特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对于给定的输入x,利用贝叶斯定理求出后验概率最大的输出y 阅读全文
posted @ 2020-06-27 12:27 WarningMessage 阅读(783) 评论(0) 推荐(0)
生信软件工具-trim_galore
摘要:Trim Galore是对FastQC和cutadapt的包装。适用于所有高通量测序,包括RRBS(Reduced Representation Bisulfite-Seq )、 Illumina、Nextera和smallRNA测序平台的双端和单端数据。主要功能包括两步: 阅读全文
posted @ 2020-06-24 09:45 WarningMessage 阅读(3816) 评论(0) 推荐(0)
生信软件工具-FastQC
摘要:FastQC用于可视化评估测序数据的质量 阅读全文
posted @ 2020-06-24 09:33 WarningMessage 阅读(979) 评论(0) 推荐(0)
机器学习笔记-XGBoost
摘要:XGBoost是Extreme Gradient Boosting的缩写,而Gradient Boosting起源于Friedman的文章*Greedy Function Approximation: A Gradient Boosting Machine*,这是一篇关于梯度提升树(gradient boosted trees)的教程,大部分内容基于Tianqi Chen的 阅读全文
posted @ 2020-06-23 14:26 WarningMessage 阅读(652) 评论(0) 推荐(0)
Linux命令-read
摘要:read命令用于从标准输入中读取输入单行,并将读取的单行根据IFS变量分裂成多个字段,并将分割后的字段分别赋值给指定的变量列表var_name。第一个字段分配给第一个变量var_name1,第二个字段分配给第二个变量var_name2,依次到结束。如果指定的变量名少于字段数量,则多出的字段数量也同样分配给最后一个var_name,如果指定的变量命令多于字段数量,则多出的变量赋值为空。如果没有指定任何var_name,则分割后的所有字段都存储在特定变量REPLY中 阅读全文
posted @ 2020-06-23 12:03 WarningMessage 阅读(205) 评论(0) 推荐(0)
Linux命令-grep
摘要:grep (Global search Regular Expression(RE) and Print out the line, 全面搜索正则表达式并把行打印出来)是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。 阅读全文
posted @ 2020-06-23 12:00 WarningMessage 阅读(352) 评论(0) 推荐(0)
Linux命令-xargs
摘要:xargs命令可以通过管道接受字符串,并将接收到的字符串通过空格分割成许多参数(默认情况下是通过空格分割)然后将参数传递给其后面的命令,作为后面命令的命令行参数。 阅读全文
posted @ 2020-06-23 11:57 WarningMessage 阅读(272) 评论(0) 推荐(0)
Linux命令-nohup
摘要:不挂起地运行命令。 nohup命令运行由 Command 参数和任何相关的 Arg 参数指定的命令,忽略所有挂断(SIGHUP)信号。要运行后台中的nohup 命令,添加 & 符号到命令的尾部。 阅读全文
posted @ 2020-06-23 11:55 WarningMessage 阅读(267) 评论(0) 推荐(0)
Linux命令-md5sum
摘要:md5sum命令用于生成和校验文件的md5值。它会逐位对文件的内容进行校验。是文件的内容,与文件名无关,也就是文件内容相同,其md5值相同。md5值是一个128位的二进制数据,转换成16进制则是32(128/4)位的进制值 阅读全文
posted @ 2020-06-23 11:53 WarningMessage 阅读(370) 评论(0) 推荐(0)
Linux命令-find
摘要:find命令在目录结构中搜索文件,并执行指定的操作。Linux下find命令提供了相当多的查找条件,功能很强大。由于find具有强大的功能,所以它的选项也很多,其中大部分选项都值得我们花时间来了解一下。 阅读全文
posted @ 2020-06-23 11:51 WarningMessage 阅读(147) 评论(1) 推荐(1)
Linux命令-locate
摘要:locate让使用者可以很快速的搜寻档案系统内是否有指定的档案。其方法是先建立一个包括系统内所有档案名称及路径的数据库,之后当寻找时就只需查询这个数据库,而不必实际深入档案系统之中了。在一般的 distribution 之中,数据库的建立都被放在 crontab 中自动执行。 阅读全文
posted @ 2020-06-23 11:49 WarningMessage 阅读(165) 评论(0) 推荐(0)
Linux命令-whereis
摘要:whereis命令定位可执行文件、源代码文件、帮助文件在文件系统中的位置。这些文件的属性应属于原始代码,二进制文件,或是帮助文件。whereis 程序还具有搜索源代码、指定备用搜索路径和搜索不寻常项的能力。 阅读全文
posted @ 2020-06-23 11:48 WarningMessage 阅读(195) 评论(0) 推荐(0)
Linux命令-which
摘要:which命令的作用是,在PATH变量指定的路径中,搜索某个系统命令的位置,并且返回第一个搜索结果。也就是说,使用which命令,就可以看到某个系统命令是否存在,以及执行的到底是哪一个位置的命令。 阅读全文
posted @ 2020-06-23 11:27 WarningMessage 阅读(145) 评论(0) 推荐(0)
Linux命令-whoami
摘要:whoami命令用于显示自身用户名称。显示自身的用户名称,本指令相当于执行id -un指令。 阅读全文
posted @ 2020-06-23 11:21 WarningMessage 阅读(187) 评论(0) 推荐(0)
Linux命令-who
摘要:who命令用于显示系统中有哪些使用者正在上面,显示的资料包含了使用者 ID、使用的终端机、从哪边连上来的、上线时间、呆滞时间、CPU 使用量、动作等等。使用权限:所有使用者都可使用。 阅读全文
posted @ 2020-06-23 11:19 WarningMessage 阅读(240) 评论(0) 推荐(0)
Linux命令-w
摘要:Linux w命令用于显示目前登入系统的用户信息。 阅读全文
posted @ 2020-06-23 11:18 WarningMessage 阅读(319) 评论(0) 推荐(0)
Linux命令-diff
摘要:diff命令是Linux上非常重要的工具,用于比较文件的内容,特别是比较两个版本不同的文件以找到改动的地方。diff在命令行中打印每一个行的改动。 阅读全文
posted @ 2020-06-23 11:15 WarningMessage 阅读(134) 评论(0) 推荐(0)
Linux命令-uniq
摘要:uniq 命令用于检查及删除文本文件中重复出现的行列,一般与 sort 命令结合使用。 阅读全文
posted @ 2020-06-23 11:13 WarningMessage 阅读(131) 评论(0) 推荐(0)
Linux命令-sort
摘要:Linux sort命令用于将文本文件内容加以排序。sort可针对文本文件的内容,以行为单位来排序。 阅读全文
posted @ 2020-06-23 11:11 WarningMessage 阅读(189) 评论(0) 推荐(0)
Linux命令-cut
摘要:cut 命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段写至标准输出。如果不指定 File 参数,cut 命令将读取标准输入。必须指定-b、-c或-f 标志之一。 阅读全文
posted @ 2020-06-23 11:01 WarningMessage 阅读(127) 评论(0) 推荐(0)
Linux命令-df
摘要:Linux中df命令的功能是用来检查Linux服务器的文件系统的磁盘空间占用情况。可以利用该命令来获取硬盘被占用了多少空间,目前还剩下多少空间等信息。 阅读全文
posted @ 2020-06-23 10:57 WarningMessage 阅读(452) 评论(0) 推荐(0)
Linux命令-du
摘要:du命令也是查看使用空间的,但是与df命令不同的是Linux du命令是对文件和目录磁盘使用的空间的查看,还是和df命令有一些区别的。 阅读全文
posted @ 2020-06-23 10:56 WarningMessage 阅读(151) 评论(0) 推荐(0)
Linux命令-date
摘要:date可以用来显示或设定系统的日期与时间。在类UNIX系统中,日期被存储为一个整数,其大小为自世界标准时间(UTC)1970年1月1日0时0分0秒起流逝的秒数。 阅读全文
posted @ 2020-06-23 10:54 WarningMessage 阅读(195) 评论(0) 推荐(0)
Linux命令-wc
摘要:Linux系统中的wc(Word Count)命令的功能为统计指定文件中的字节数、字数、行数,并将统计结果显示输出。 阅读全文
posted @ 2020-06-23 10:51 WarningMessage 阅读(123) 评论(0) 推荐(0)
Linux命令-tail
摘要:tail命令从指定点开始将文件写到标准输出。使用tail命令的-f选项可以方便的查阅正在改变的日志文件,tail -f filename会把filename里最尾部的内容显示在屏幕上,并且不断刷新,使你看到最新的文件内容 阅读全文
posted @ 2020-06-23 10:46 WarningMessage 阅读(172) 评论(0) 推荐(0)
Linux命令-head
摘要:head用来显示档案的开头至标准输出中。如果指定了多于一个文件,在每一段输出前会给出文件名作为文件头。如果不指定文件,或者文件为"-",则从标准输入读取数据。 阅读全文
posted @ 2020-06-23 10:44 WarningMessage 阅读(152) 评论(0) 推荐(0)
Linux命令-less
摘要:less工具也是对文件或其它输出进行分页显示的工具,应该说是Linux正统查看文件内容的工具,功能极其强大。less的用法比起more更加的有弹性。在more 的时候,我们并没有办法向前面翻, 只能往后面看,但若使用了less时,就可以使用 [pageup] [pagedown] 等按键的功能来往前往后翻看文件,更容易用来查看一个文件的内容!除此之外,在less里头可以拥有更多的搜索功能,不止可以向下搜,也可以向上搜。 阅读全文
posted @ 2020-06-23 10:42 WarningMessage 阅读(195) 评论(0) 推荐(0)
Linux命令-more
摘要:more命令,功能类似cat,cat命令是整个文件的内容从上到下显示在屏幕上。 more会以一页一页的显示方便使用者逐页阅读,而最基本的指令就是按空白键(space)就往下一页显示,按b键就会往回(back)一页显示,而且还有搜寻字串的功能 。more命令从前向后读取文件,因此在启动时就加载整个文件。 阅读全文
posted @ 2020-06-23 10:40 WarningMessage 阅读(244) 评论(0) 推荐(0)
Linux命令-curl
摘要:在Linux中curl是一个利用URL规则在命令行下工作的文件传输工具,可以说是一款很强大的http命令行工具。它支持文件的上传和下载,是综合传输工具,但按传统,习惯称curl为下载工具。 阅读全文
posted @ 2020-06-23 10:38 WarningMessage 阅读(313) 评论(0) 推荐(0)
Linux命令-wget
摘要:Linux系统中的wget是一个下载文件的工具,它用在命令行下。对于Linux用户是必不可少的工具,我们经常要下载一些软件或从远程服务器恢复备份到本地服务器。wget支持HTTP,HTTPS和FTP协议,可以使用HTTP代理。 阅读全文
posted @ 2020-06-23 10:34 WarningMessage 阅读(224) 评论(0) 推荐(0)
Linux命令-tar
摘要:Linux下最常用的打包程序就是tar了,使用tar程序打出来的包我们常称为tar包,tar包文件的命令通常都是以.tar结尾的。生成tar包后,就可以用其它的程序来进行压缩。 阅读全文
posted @ 2020-06-23 10:29 WarningMessage 阅读(247) 评论(0) 推荐(0)
Linux命令-bunzip2
摘要:bunzip2命令是.bz2文件的解压缩程序。 阅读全文
posted @ 2020-06-23 10:24 WarningMessage 阅读(155) 评论(0) 推荐(0)
Linux命令-bzip2
摘要:bzip2命令是.bz2文件的压缩程序。若没有加上任何参数,bzip2压缩完文件后会产生.bz2的压缩文件,并删除原始的文件。 阅读全文
posted @ 2020-06-23 09:04 WarningMessage 阅读(152) 评论(0) 推荐(0)
Linux命令-unzip
摘要:unzip命令用于解压缩文件 阅读全文
posted @ 2020-06-23 09:02 WarningMessage 阅读(300) 评论(0) 推荐(0)
Linux命令-zip
摘要:zip是个使用广泛的压缩程序,文件经它压缩后会另外产生具 有".zip"扩展名 的压缩文件。 阅读全文
posted @ 2020-06-23 09:00 WarningMessage 阅读(175) 评论(0) 推荐(0)
Linux命令-gunzip
摘要:gunzip是个使用广泛的解压缩程序,它用于解开被gzip压缩过的文件,这些压缩文件预设最后的扩展名为".gz"。事实上gunzip就是gzip的硬连接,因此不论是压缩或解压缩,都可通过gzip指令单独完成。 阅读全文
posted @ 2020-06-23 08:58 WarningMessage 阅读(139) 评论(0) 推荐(0)
Linux命令-gzip
摘要:gzip是在Linux系统中经常使用的一个对文件进行压缩和解压缩的命令,既方便又好用。gzip不仅可以用来压缩大的、较少使用的文件以节省磁盘空间,还可以和tar命令一起构成Linux操作系统中比较流行的压缩文件格式。据统计,gzip命令对文本文件有60%~70%的压缩率。 阅读全文
posted @ 2020-06-23 08:47 WarningMessage 阅读(117) 评论(0) 推荐(0)
Linux命令-cat
摘要:cat命令的用途是连接文件或标准输入并打印。这个命令常用来显示文件内容,或者将几个文件连接起来显示,或者从标准输入读取内容并显示,它常与重定向符号配合使用。 阅读全文
posted @ 2020-06-23 08:41 WarningMessage 阅读(193) 评论(0) 推荐(0)
Linux命令-paste
摘要:paste单词意思是粘贴。该命令主要用来将多个文件的内容合并,与cut命令完成的功能刚好相反。 阅读全文
posted @ 2020-06-23 08:29 WarningMessage 阅读(295) 评论(0) 推荐(0)
Linux命令-ln
摘要:ln是Linux中非常重要的命令,它的功能是为某一个文件在另外一个位置建立一个同步的链接。当我们需要在不同的目录,用到相同的文件时,我们不需要在每一个需要的目录下都放一个必须相同的文件,我们只要在某个固定的目录,放上该文件,然后在 其它的目录下用ln命令链接(link)它就可以,不必重复的占用磁盘空间。 阅读全文
posted @ 2020-06-22 16:47 WarningMessage 阅读(363) 评论(0) 推荐(0)
Linux命令-rm
摘要:rm是常用的命令之一,该命令的功能为删除一个目录中的一个或多个文件或目录,它也可以将某个目录及其下的所有文件及子目录均删除。对于链接文件,只是删除了链接,原有文件均保持不变。支持通配符。 阅读全文
posted @ 2020-06-22 16:45 WarningMessage 阅读(231) 评论(0) 推荐(0)
Linux命令-rmdir
摘要:rmdir命令的功能是删除空目录,一个目录被删除之前必须是空的。 阅读全文
posted @ 2020-06-22 16:43 WarningMessage 阅读(178) 评论(0) 推荐(0)
Linux命令-chown
摘要:chown将指定文件的拥有者改为指定的用户或组,用户可以是用户名或者用户ID;组可以是组名或者组ID;文件是以空格分开的要改变权限的文件列表,支持通配符。系统管理员经常使用chown命令,在将文件拷贝到另一个用户的名录下之后,让用户拥有使用该文件的权限。 阅读全文
posted @ 2020-06-22 16:40 WarningMessage 阅读(131) 评论(0) 推荐(0)
Linux命令-chgrp
摘要:在Linux系统里,文件或目录的权限的掌控以拥有者及所属群组来管理。可以使用chgrp指令变更文件与目录所属群组,这种方式采用群组名称或群组识别码都可以。 阅读全文
posted @ 2020-06-22 16:39 WarningMessage 阅读(137) 评论(0) 推荐(0)
Linux命令-chmod
摘要:chmod命令用于改变Linux系统文件或目录的访问权限。用它控制文件或目录的访问权限。该命令有两种用法。一种是包含字母和操作符表达式的文字设定法;另一种是包含数字的数字设定法。 阅读全文
posted @ 2020-06-22 16:38 WarningMessage 阅读(187) 评论(0) 推荐(0)
Linux命令-echo
摘要:echo是一个非常简单、直接的Linux命令。在shell操作和shell script设计上,echo命令是最常被使用的命令之一 阅读全文
posted @ 2020-06-22 16:34 WarningMessage 阅读(264) 评论(0) 推荐(0)
Linux命令-mv
摘要:mv命令是move的缩写,可以用来移动文件或者将文件重命名(move (rename) files),是Linux系统下常用的命令之一。 阅读全文
posted @ 2020-06-22 16:33 WarningMessage 阅读(171) 评论(0) 推荐(0)
Linux命令-mkdir
摘要:mkdir 命令用来创建指定名称的目录,要求创建目录的用户在当前目录中具有写权限,并且指定的目录名不能是当前目录中已有的目录。 阅读全文
posted @ 2020-06-22 16:28 WarningMessage 阅读(136) 评论(0) 推荐(0)
Linux命令-cp
摘要:cp命令用来复制文件或者目录,是Linux系统中最常用的命令之一。一般情况下,shell会设置一个别名,在命令行下复制文件时,如果目标文件已经存在,就会询问是否覆盖,不管你是否使用-i参数。但是如果是在shell脚本中执行cp时,没有-i参数时不会询问是否覆盖。这说明命令行和shell脚本的执行方式有些不同。 阅读全文
posted @ 2020-06-22 16:27 WarningMessage 阅读(177) 评论(0) 推荐(0)
Linux命令-cd
摘要:cd命令,切换当前目录至dirName 阅读全文
posted @ 2020-06-22 16:24 WarningMessage 阅读(157) 评论(0) 推荐(0)
Linux命令-pwd
摘要:Linux中用 pwd 命令来查看”当前工作目录“的完整路径。简单得说,每当你在终端进行操作时,你都会有一个当前工作目录。在不太确定当前位置时,就会使用pwd来判定当前目录在文件系统内的确切位置。 阅读全文
posted @ 2020-06-22 16:22 WarningMessage 阅读(197) 评论(0) 推荐(0)
Linux命令-ls
摘要:ls命令就是list的缩写,默认条件下ls用来打印出当前目录的清单。如果ls指定其他目录,那么就会显示指定目录里的文件及目录清单。 通过ls 命令不仅可以查看Linux目录包含的文件,而且可以查看文件权限(包括目录),查看目录信息等等。 阅读全文
posted @ 2020-06-22 16:19 WarningMessage 阅读(184) 评论(0) 推荐(0)
生信文件格式-VCF文件
摘要:VCF是用于描述SNP,INDEL和SV结果的文件,下面所记录的是以GATK软件结果的VCF文件,与SAMtools的结果有点不同 阅读全文
posted @ 2020-06-22 16:11 WarningMessage 阅读(1317) 评论(0) 推荐(0)
生信文件格式-SAM文件
摘要:SAM文件由两部分组成:头部信息和比对信息,都是以tab键分隔。 阅读全文
posted @ 2020-06-22 16:07 WarningMessage 阅读(8363) 评论(0) 推荐(0)
生信文件格式-BED文件
摘要:BED文件每行至少包含chrom,chromStart,chromEnd三列;另外还可以添加额外的9列,这些列的顺序是固定的。 阅读全文
posted @ 2020-06-22 15:56 WarningMessage 阅读(3007) 评论(0) 推荐(0)
机器学习笔记-梯度提升树(GBDT)
摘要:在Gradient Boosting中则将负梯度作为上一轮基学习器犯错的衡量指标,在下一轮学习中通过拟合负梯度来纠正上一轮犯的错误。这里的关键问题是:为什么通过拟合负梯度就能纠正上一轮的错误了?Gradient Boosting的发明者给出的答案是:函数空间的梯度下降。 阅读全文
posted @ 2020-06-22 15:26 WarningMessage 阅读(911) 评论(0) 推荐(0)
机器学习笔记-AdaBoost算法
摘要:AdaBoost算法的全称是自适应增强(Adaptive Boosting),是一个具有里程碑意义的算法,因为其是第一个具有适应性的算法,即能适应基学习器各自的训练误差率。 阅读全文
posted @ 2020-06-19 10:03 WarningMessage 阅读(1385) 评论(0) 推荐(1)
机器学习笔记-随机森林
摘要:随机森林(Random Forest, 简称RF)[Breiman, 2001a]是Bagging的一个扩展变体。随机森林在以决策树为基学习器构建Bagging集成的基础上,进一步在基决策树的训练过程中引入了随机属性选择。 阅读全文
posted @ 2020-06-16 09:56 WarningMessage 阅读(786) 评论(1) 推荐(0)
机器学习笔记-集成学习简介
摘要:集成学习(ensemble learning),有时也被称为多分类器系统multi-classifier system)、基于委员会的学习(committee-based learning)等。可以说是现在非常火爆的机器学习方法了。它本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。也就是我们常说的“博采众长”。 阅读全文
posted @ 2020-06-15 13:55 WarningMessage 阅读(551) 评论(0) 推荐(0)
机器学习笔记-决策树(二)
摘要:上一篇笔记决策树(一)里学习了决策树的ID3算法,和ID3算法的改进版C4.5算法。对于C4.5算法,我们也提到了它的不足,比如模型是用较为复杂的熵来度量,使用了相对较为复杂的多叉树,只能处理分类不能处理回归等。对于这些问题,CART算法大部分做了改进。下面我们就来学习CART算法的相关内容。 阅读全文
posted @ 2020-06-13 14:00 WarningMessage 阅读(527) 评论(0) 推荐(0)
机器学习笔记-决策树(一)
摘要:决策树(decision tree)是一类常见的机器学习方法。以二分类任务为例,我们希望从给定训练数据集学得一个模型用以对新的示例进行分类,这个把样本分类的任务,可以看作对“当前样本属于正类吗?”这个问题的“决策”或“判别”过程。顾名思义,决策树是基于树结构来进行决策的,这恰是人类在面临决策问题时一种很自然的处理机制。 阅读全文
posted @ 2020-06-13 13:58 WarningMessage 阅读(2695) 评论(0) 推荐(0)
机器学习笔记-梯度下降法
摘要:无论是在线性回归(Linear Regression)、逻辑回归(Logistic Regression)还是神经网络(Neural Network)等等,都会用到梯度下降算法。 阅读全文
posted @ 2020-06-05 10:28 WarningMessage 阅读(442) 评论(0) 推荐(0)
机器学习笔记-为什么梯度反方向是函数值下降最快的方向
摘要:在学习机器学习算法的时候,很多训练算法用的就是梯度下降,然后很多资料也说朝着梯度的反方向变动,函数值下降最快 阅读全文
posted @ 2020-06-05 10:26 WarningMessage 阅读(3404) 评论(0) 推荐(1)
机器学习笔记-Logistic回归
摘要:在前面的笔记中,我们已经了解了线性模型。线性模型虽然简单,却有丰富的变化。 阅读全文
posted @ 2020-06-02 15:01 WarningMessage 阅读(739) 评论(1) 推荐(0)
机器学习笔记-L2正则化、L1正则化与稀疏性
摘要:L2正则化、L1正则化与稀疏性的原理是什么? 阅读全文
posted @ 2020-06-01 16:15 WarningMessage 阅读(2379) 评论(0) 推荐(0)