摘要: 进入算法研发部,在大致了解部门的项目构成,主要职责之后,我意识到最优化算法在各个项目组中都具有重要的作用,例如CTR预估、排序等。然而,由于自己在读博期间除了“逻辑回归”以外,没有系统参与过涉及最优化的项目,因此在还没有分配到具体任务的情况下,首先自发地对最优化算法的发展历程进行了调研。心得体会如下: 最优化领域中的方法虽然“多如牛毛”,但是总体上还是沿着一条“主线”发展的。这里按照时间顺序对这... 阅读全文
posted @ 2012-03-11 19:21 吴军 阅读(4762) 评论(1) 推荐(4)
摘要: 回归模型评估 1. 拟合优度 1.1 Pearson检验 协变类型描述的是模型中协变量不同值的特定组合,对于一个含有分类自变量的模型来说,数据所含的协变类型的数目由每个分类自变量的情况所决定。 构造统计量:,其中j=1,2,…,J,J是协变类型的种类数目。Oj和Ej分别为第j类协变类型中的观测频数和预测频数。的自由度是协变类型数目与参数数目之差。统计量很小意味着预测值与观测值之间没有显著差... 阅读全文
posted @ 2012-03-06 00:11 吴军 阅读(2573) 评论(0) 推荐(0)
摘要: 皮尔森相关系数(Pearson correlation coefficient),也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient) ,是一种线性相关系数。皮尔森相关系数是用来反映两个变量线性相关程度的统计量。相关系数用r表示,r的绝对值越大,表明相关性越强。 两变项间的相关可以用许多统计值来测量,最常用的是皮尔森相关系数。Pearson r 的取值在-1与+1之间,若r>0,表明两个变量是正相关,即一个变量的值越大,另一个变量的值也会越大;若r<0,表明两个变量是负相关,即一个变量的值越大另一个变量的值反而会越小 阅读全文
posted @ 2012-03-04 23:16 吴军 阅读(2795) 评论(0) 推荐(0)
摘要: 1. 什么是Treelink Treelink是阿里集团内部的叫法,其学术上的名称是GBDT(Gradient Boosting Decision Tree,梯度提升决策树)。GBDT是“模型组合+决策树”相关算法的两个基本形式中的一个,另外一个是随机森林(Random Forest),相较于GBDT要简单一些。1.1 决策树 应用最广的分类算法之一,模型学习的结果是一棵决策树,这棵决策树可以被表示成多个if-else的规则。决策树实际上是将空间用超平面进行划分的一种方法,每次分割的时候,都将当前的空间一分为二,比如说下面的决策树:这样使得每一个叶子节点都是在空间中的一个不相交的区域。学习得到 阅读全文
posted @ 2012-03-04 21:22 吴军 阅读(6524) 评论(4) 推荐(3)
摘要: Makefile文件描述了整个工程的编译、链接等规则。其中包括:工程中的哪些源文件需要编译以及如何编译、需要创建哪些库文件以及如何创建这些库文件、如何最后产生我们想要的可执行文件。尽管看起来可能是很复杂的事情,但是为工程编写Makefile的好处是能够使用一行命令来完成“自动化编译”,一旦提供一个(通常对于一个工程来说会是多个)正确的Makefile。编译整个工程你所要做的唯一的一件事就是在shell 提示符下输入make命令。整个工程完全自动编译,极大提高了效率。Makefile书写规则: (1)若工程没有编译过,那么所有的C(或C++)文件都要被编译并被链接; (2)若工程的某几个C文.. 阅读全文
posted @ 2012-03-04 20:56 吴军 阅读(962) 评论(0) 推荐(0)