河水青山1 - 博客园

2018年7月29日

摘要：一、什么是范数范数是衡量某个向量空间（或矩阵）中的每个向量的长度或大小。范数的一般化定义：对实数p>=1，范数定义如下： $||x||_p := (\sum_{i=1}^{n}|x_i|^p)^{1/p}$ L1范数当p=1时，是L1范数，其表示某个向量中所有元素绝对值的和。 L2范数当阅读全文

posted @ 2018-07-29 10:18 河水青山1 阅读(557) 评论(0) 推荐(0)

2018年7月16日

Database in BioInformation

摘要：很多数据库都可以通过下面的网站下载：http://annovar.openbioinformatics.org/en/latest/user-guide/download/ 一、NHLBI-ESP（Exome Sequencing Project）国家心肺和血液研究所外显子组测序计划（NHLBI- 阅读全文

posted @ 2018-07-16 16:39 河水青山1 阅读(1312) 评论(0) 推荐(0)

GTF文件

摘要：一、GTF文件格式 Fields must be tab-separated. Also, all but the final field in each feature line must contain a value; "empty" columns should be denoted wit 阅读全文

posted @ 2018-07-16 16:28 河水青山1 阅读(700) 评论(0) 推荐(0)

2018年7月11日

生信软件使用

摘要：一、提取fasta序列已知参考基因组合一个bed文件区间，如何将该区间内的序列提取出来，以fasta格式保存，使用bedtools getfasta 阅读全文

posted @ 2018-07-11 15:04 河水青山1 阅读(414) 评论(0) 推荐(0)

2018年7月5日

N-Gram

摘要：一、什么是N-Gram N-Gram是一种统计语言模型，用来根据前(n-1)个item来预测第n个item。在应用层面，这些item字符（输入法应用）等。一般来讲，可以从大规模文本或音频语料库生成N-Gram模型。习惯上，1-gram称为unigram，2-gram称为bigram，3-gram是阅读全文

posted @ 2018-07-05 13:44 河水青山1 阅读(1243) 评论(0) 推荐(0)

2018年6月28日

K-means

摘要：一、K-means 非监督学习中有一大类问题是聚类问题，其中有个经典算法:K-means，其中K代表我们事先已经知道要将数据集分成K类。K-Means算法的思想很简单，对于给定的样本集，按照样本之间的距离大小，将样本集划分为K个簇。让簇内的点尽量紧密的连在一起，而让簇间的距离尽量的大。原理如下图阅读全文

posted @ 2018-06-28 15:29 河水青山1 阅读(174) 评论(0) 推荐(0)

2018年5月23日

变异检测

摘要：一、Indel Pindel：跟其他Call Indel的软件不大一样，Pindel用的是一个叫pattern growth的算法来检测Indel以及其他的结构变异(所以才叫P-Indel的吧)，具体算法：http://gmt.genome.wustl.edu/packages/pindel/，引用阅读全文

posted @ 2018-05-23 14:42 河水青山1 阅读(604) 评论(0) 推荐(0)

2018年5月17日

泰勒公式

摘要：一、定义数学中，如果一个函数足够平滑的话，已知函数在某一点的各阶导数值的情况之下，泰勒公式可以用这些导数值做系数构建一个多项式来近似函数在这一点的邻域中的值。泰勒公式还给出了这个多项式和实际的函数值之间的偏差。泰勒公式是将一个在x=x0处具有n阶导数的函数f(x)利用关于(x-x0)的n次多项式阅读全文

posted @ 2018-05-17 22:29 河水青山1 阅读(2680) 评论(0) 推荐(0)

2018年5月14日

Hadoop安装教程

摘要：一、所需软件 Java 必须安装。Hadoop 2.7 及以后版本，需要安装 Java 7 ssh 必须安装并且保证 sshd 一直运行，以便用 Hadoop 脚本管理远端Hadoop 守护进程，如果没有安装，ubuntu系统： $ sudo apt-get install ssh $ sudo a 阅读全文

posted @ 2018-05-14 21:08 河水青山1 阅读(386) 评论(0) 推荐(0)

2018年4月28日

基因芯片原理

摘要：一、基因芯片原理简介基因芯片(gene chip)测序原理是杂交测序方法，即通过与一组已知序列的核酸探针杂交进行核酸序列测定的方法如上图：在一块基片表面固定了序列已知的八核苷酸的探针。当溶液中带有荧光标记的核酸序列TATGCAATCTAG，与基因芯片上对应位置的核酸探针产生互补匹配时，通过确定荧阅读全文

posted @ 2018-04-28 14:20 河水青山1 阅读(1393) 评论(0) 推荐(0)

1直在路上1

公告