2012 年 7月 18 日随笔档案 - as_

mahout下的Canopy Clustering实现

摘要：转自：http://www.cnblogs.com/vivounicorn/archive/2011/09/23/2186483.html为便于理解有修改一、基本思想1、基于Canopy Method的聚类算法将聚类过程分为两个阶段 Stage1、聚类最耗费计算的地方是计算对象相似性的时候，Canopy Method在第一阶段选择简单、计算代价较低的方法计算对象相似性，将相似的对象放在一个子集中，这个子集被叫做Canopy ，通过一系列计算得到若干Canopy，Canopy之间可以是重叠的，但不会存在某个对象不属于任何Canopy的情况，可以把这一阶段看做数据预处理； Stage2、在各个C 阅读全文

posted @ 2012-07-18 16:46 as_ 阅读(4704) 评论(2) 推荐(0)

Logistic Regression--逻辑回归算法汇总**

摘要：转自别处有很多与此类似的文章也不知道谁是原创因原文由少于错误所以下文对此有修改并且做了适当的重点标记(横线见的内容没大明白并且有些复杂，后面的运行流程依据前面的得出的算子进行分类)初步接触谓LR分类器(Logistic Regression Classifier)，并没有什么神秘的。在分类的情形下，经过学习之后的LR分类器其实就是一组权值w0,w1,...,wm. 当测试样本集中的测试数据来到时，这一组权值按照与测试数据线性加和的方式，求出一个z值：z = w0+w1*x1+w2*x2+...+wm*xm。 ① （其中x1,x2,...,xm是某样本数据的各个特征，维度为m）之后按照si 阅读全文

posted @ 2012-07-18 14:06 as_ 阅读(79280) 评论(5) 推荐(9)

百度2010校招算法题之最大数字串

摘要：代码编写完成函数： int maxnumstr(char *inputstr, char *outputstr) 函数功能：找出inputstr中的最长连续数字串存储到outputstr里并返回长度，如调用maxnumstr("123abc1234a", outputstr)后返回4且outputstr中为"1234"。代码实现：（未验证正确性）int maxnumstr(char *inputstr, char *outputstr){ int i,j,count,max=-1; char *p,*pmax; for(i=0;inputstr[i]!= 阅读全文

posted @ 2012-07-18 13:33 as_ 阅读(1351) 评论(0) 推荐(1)

百度2010校招算法题之编译模块

摘要：算法设计某大型项目由n个组件N1, N2……Nn构成，每个组件都可以独立编译，但是某些组件的编译依赖于其它组件（即某些组件只能在其它组件编译完成后才能编译），设计算法给出统计过程。思路：拓扑排序算法语言伪代码：(1)初始化栈S(2)找出所有可执行的组件w，w进栈(3)while(栈S非空) v=栈顶元素出栈; if（v未被编译）编译v，并且输出v； foreach（更新与v相关的组件依赖参数） if(x=组件可被编译) x进栈；C伪码：void compileModel... 阅读全文

posted @ 2012-07-18 13:07 as_ 阅读(1417) 评论(0) 推荐(1)

深度优先遍历与广度优先遍历

摘要：深度优先遍历1．深度优先遍历的递归定义假设给定图G的初态是所有顶点均未曾访问过。在G中任选一顶点v为初始出发点(源点)，则深度优先遍历可定义如下：首先访问出发点v，并将其标记为已访问过；然后依次从v出发搜索v的每个邻接点w。若w未曾访问过，则以w为新的出发点继续进行深度优先遍历，直至图中所有和源点v有路径相通的顶点(亦称为从源点可达的顶点)均已被访问为止。若此时图中仍有未访问的顶点，则另选一个尚未访问的顶点作为新的源点重复上述过程，直至图中所有顶点均已被访问为止。图的深度优先遍历类似于树的前序遍历。采用的搜索方法的特点是尽可能先对纵深方向进行搜索。这种搜索方法称为深度优先搜索(Dept.. 阅读全文

posted @ 2012-07-18 10:42 as_ 阅读(52880) 评论(0) 推荐(6)

华山大师兄

mahout下的Canopy Clustering实现

Logistic Regression--逻辑回归算法汇总**

百度2010校招算法题之最大数字串

百度2010校招算法题之编译模块

深度优先遍历与广度优先遍历

导航

公告