2012年7月18日

mahout下的Canopy Clustering实现

摘要: 转自:http://www.cnblogs.com/vivounicorn/archive/2011/09/23/2186483.html为便于理解 有修改一、基本思想1、基于Canopy Method的聚类算法将聚类过程分为两个阶段 Stage1、聚类最耗费计算的地方是计算对象相似性的时候,Canopy Method在第一阶段选择简单、计算代价较低的方法计算对象相似性,将相似的对象放在一个子集中,这个子集被叫做Canopy ,通过一系列计算得到若干Canopy,Canopy之间可以是重叠的,但不会存在某个对象不属于任何Canopy的情况,可以把这一阶段看做数据预处理; Stage2、在各个C 阅读全文

posted @ 2012-07-18 16:46 as_ 阅读(4657) 评论(2) 推荐(0) 编辑

Logistic Regression--逻辑回归算法汇总**

摘要: 转自别处有很多与此类似的文章也不知道谁是原创 因原文由少于错误 所以下文对此有修改并且做了适当的重点标记(横线见的内容没大明白 并且有些复杂,后面的运行流程依据前面的得出的算子进行分类)初步接触谓LR分类器(Logistic Regression Classifier),并没有什么神秘的。在分类的情形下,经过学习之后的LR分类器其实就是一组权值w0,w1,...,wm. 当测试样本集中的测试数据来到时,这一组权值按照与测试数据线性加和的方式,求出一个z值:z = w0+w1*x1+w2*x2+...+wm*xm。 ① (其中x1,x2,...,xm是某样本数据的各个特征,维度为m)之后按照si 阅读全文

posted @ 2012-07-18 14:06 as_ 阅读(78892) 评论(5) 推荐(9) 编辑

百度2010校招算法题之最大数字串

摘要: 代码编写完成函数: int maxnumstr(char *inputstr, char *outputstr) 函数功能:找出inputstr中的最长连续数字串存储到outputstr里并返回长度,如调用maxnumstr("123abc1234a", outputstr)后返回4且outputstr中为"1234"。代码实现:(未验证正确性)int maxnumstr(char *inputstr, char *outputstr){ int i,j,count,max=-1; char *p,*pmax; for(i=0;inputstr[i]!= 阅读全文

posted @ 2012-07-18 13:33 as_ 阅读(1331) 评论(0) 推荐(1) 编辑

百度2010校招算法题之编译模块

摘要: 算法设计某大型项目由n个组件N1, N2……Nn构成,每个组件都可以独立编译,但是某些组件的编译依赖于其它组件(即某些组件只能在其它组件编译完成后才能编译),设计算法给出统计过程。思路:拓扑排序算法语言伪代码:(1)初始化栈S(2)找出所有可执行的组件w,w进栈(3)while(栈S非空) v=栈顶元素出栈; if(v未被编译) 编译v,并且输出v; foreach(更新与v相关的组件依赖参数) if(x=组件可被编译) x进栈;C伪码:void compileModel... 阅读全文

posted @ 2012-07-18 13:07 as_ 阅读(1402) 评论(0) 推荐(1) 编辑

深度优先遍历与广度优先遍历

摘要: 深度优先遍历1.深度优先遍历的递归定义 假设给定图G的初态是所有顶点均未曾访问过。在G中任选一顶点v为初始出发点(源点),则深度优先遍历可定义如下:首先访问出发点v,并将其标记为已访问过;然后依次从v出发搜索v的每个邻接点w。若w未曾访问过,则以w为新的出发点继续进行深度优先遍历,直至图中所有和源点v有路径相通的顶点(亦称为从源点可达的顶点)均已被访问为止。若此时图中仍有未访问的顶点,则另选一个尚未访问的顶点作为新的源点重复上述过程,直至图中所有顶点均已被访问为止。 图的深度优先遍历类似于树的前序遍历。采用的搜索方法的特点是尽可能先对纵深方向进行搜索。这种搜索方法称为深度优先搜索(Dept.. 阅读全文

posted @ 2012-07-18 10:42 as_ 阅读(52697) 评论(0) 推荐(6) 编辑

导航