摘要: kmeans属于聚类算法当中最早也是最经典一个算法,但是我们可以发现kmeans算法属于刚性聚类,例如,一则谈论政治对生物信息技术影响的新闻报道,既可以归类于政治类别,也可以归类于生物技术类别,但不能同时归于这两个类别。既然我们需要优化相关文章的这个特性,那就需要允许重叠或模糊信息。我们也许还需... 阅读全文
posted @ 2015-12-09 22:08 ttabbss 阅读(313) 评论(0) 推荐(0)
摘要: 前面提到的kmeans 算法需要提前设定簇的个数,我们也可以根据数据进行简单簇数目估计,但是有一类称为近似聚类算法技术可以根据给定数据集估计簇的数量以及近似的中心位置,其中有一个典型算法就是canopy生成算法。 Mahout中kmeans 算法实现使用RandomSeedGenerator类生... 阅读全文
posted @ 2015-12-09 16:14 ttabbss 阅读(457) 评论(0) 推荐(0)
摘要: 关于kmeans说在前面:kmeans算法有一个硬性的规定就是簇的个数要提前设定。大家可能会质疑这个限制是否影响聚类效果,但是这种担心是多余的。在该算法诞生的这么多年里,该算法已被证明能够广泛的用于解决现实世界问题,即使簇个数k值是次优的,聚类的质量不会受到太大影响。 聚类在现实中很大应用就是对... 阅读全文
posted @ 2015-12-07 11:32 ttabbss 阅读(1338) 评论(0) 推荐(0)
摘要: 一、对朴素简单直接方法 把m*n 和n*l的矩阵A和B相乘,这估计是最容易想到的方法了: 把A(m*n)的元素,每个发送l次,把B(n*l)的元素每个发送m次。将发送到一起的数据相乘求和,得到最后的结果。 优点:在知道坐标的情况下,这个过程就一轮mapreduce。 缺点:每个值要被... 阅读全文
posted @ 2015-11-30 21:18 ttabbss 阅读(423) 评论(0) 推荐(0)
摘要: Slope One 算法试图同时满足这样的的 5 个目标: 1. 易于实现和维护:普通工程师可以轻松解释所有的聚合数据,并且算法易于实现和测试。 2. 运行时可更新的:新增一个评分项,应该对预测结果即时产生影响。 3. 高效率的查询响应:快速的执行查询,可能需要付出更多的空间占用作为代价。... 阅读全文
posted @ 2015-10-28 11:15 ttabbss 阅读(354) 评论(0) 推荐(0)
摘要: 字典结构的使用 字典简单理解就是key-value对,下面是字典建立和简单使用 >>> d={1:'hello',2:'world',3:'come',4:'on'}>>> d{1: 'hello', 2: 'world', 3: 'come', 4: 'on'}>>> d[1]'hello'... 阅读全文
posted @ 2015-10-25 17:26 ttabbss 阅读(270) 评论(0) 推荐(0)
摘要: 基于用户的协同过滤是推荐系统中最古老的算法,而且这个算法思路也是非常直接,通过找某个user类似的user喜好进行推荐。 具体实现流程如下: u 代表一个user ,上述流程是一个最朴素的基于用户的推荐流程。但是这个在实际当中效率太低下,实际中的基于用户推荐流程如下: 最主要区别就是首先... 阅读全文
posted @ 2015-10-17 21:31 ttabbss 阅读(374) 评论(0) 推荐(0)
摘要: 这篇博客是延续上部分的补充:Mahout 对推荐数据的抽象表示(上部分) 处理无Preference values 数据 下面都是围绕Mahout对没有Preference values的数据的推荐。 有时进入推荐引擎的数据没有Preference values,而是只有相关联的一个userID... 阅读全文
posted @ 2015-10-10 22:09 ttabbss 阅读(247) 评论(0) 推荐(0)
摘要: 学习Mahout推荐相关算法前,我们必须先要理解Mahout如何对推荐数据进行抽象表示。首先来看下Preference,该抽象是最基本的抽象,这个抽象对象一般代表一个单独的 userID、itemID、Preference 分数,在具体实现层面首先是Preference接口: /** * Li... 阅读全文
posted @ 2015-10-08 21:26 ttabbss 阅读(284) 评论(0) 推荐(0)
摘要: 在github.com上 建立了一个小项目,可是在每次push 的时候,都要输入用户名和密码,很是麻烦,用户体验很差,后来发现其实是自己没有使用正确的方式。 有两种方式push ,如何查看是哪种方式了? git remote -v 指令 返回类似如下: huruzun@huruzun-All-... 阅读全文
posted @ 2015-10-02 11:31 ttabbss 阅读(228) 评论(0) 推荐(0)