摘要: 皮尔森相关系数(Pearson correlation coefficient),也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient) ,是一种线性相关系数。皮尔森相关系数是用来反映两个变量线性相关程度的统计量。相关系数用r表示,r的绝对值越大,表明相关性越强。 两变项间的相关可以用许多统计值来测量,最常用的是皮尔森相关系数。Pearson r 的取值在-1与+1之间,若r>0,表明两个变量是正相关,即一个变量的值越大,另一个变量的值也会越大;若r<0,表明两个变量是负相关,即一个变量的值越大另一个变量的值反而会越小 阅读全文
posted @ 2012-03-04 23:16 吴军 阅读(2795) 评论(0) 推荐(0)
摘要: 1. 什么是Treelink Treelink是阿里集团内部的叫法,其学术上的名称是GBDT(Gradient Boosting Decision Tree,梯度提升决策树)。GBDT是“模型组合+决策树”相关算法的两个基本形式中的一个,另外一个是随机森林(Random Forest),相较于GBDT要简单一些。1.1 决策树 应用最广的分类算法之一,模型学习的结果是一棵决策树,这棵决策树可以被表示成多个if-else的规则。决策树实际上是将空间用超平面进行划分的一种方法,每次分割的时候,都将当前的空间一分为二,比如说下面的决策树:这样使得每一个叶子节点都是在空间中的一个不相交的区域。学习得到 阅读全文
posted @ 2012-03-04 21:22 吴军 阅读(6524) 评论(4) 推荐(3)
摘要: Makefile文件描述了整个工程的编译、链接等规则。其中包括:工程中的哪些源文件需要编译以及如何编译、需要创建哪些库文件以及如何创建这些库文件、如何最后产生我们想要的可执行文件。尽管看起来可能是很复杂的事情,但是为工程编写Makefile的好处是能够使用一行命令来完成“自动化编译”,一旦提供一个(通常对于一个工程来说会是多个)正确的Makefile。编译整个工程你所要做的唯一的一件事就是在shell 提示符下输入make命令。整个工程完全自动编译,极大提高了效率。Makefile书写规则: (1)若工程没有编译过,那么所有的C(或C++)文件都要被编译并被链接; (2)若工程的某几个C文.. 阅读全文
posted @ 2012-03-04 20:56 吴军 阅读(962) 评论(0) 推荐(0)