蒋源德

2015年5月11日

摘要：首先交代一下集群的规模和配置集群有六台机器，均是VM虚拟机，每台256M的内存（原谅楼主物理机硬件不太给力）主机名分别是cloud1~cloud6 每台机器上都装有jdk6,和hadoop-2.2.0 其中cloud4~cloud6上装有zookeeper cloud1为hdf... 阅读全文

posted @ 2015-05-11 00:16 蒋源德阅读(537) 评论(0) 推荐(0)

2015年4月24日

数据挖掘算法之协同过滤算法

摘要：当下使用协同过滤算法计算的推荐系统到处可见，例如淘宝，京东，当当等电商网站，当你在网站上购买或者浏览了某些商品从而被其收集了相对应的数据，下次你在次浏览该网站的时候就会发现，他会根据你之前的购买/浏览记录为你推荐一些商品，而这些商品的推荐往往是十分精准的，因为它是建立在大数据的基础... 阅读全文

posted @ 2015-04-24 20:28 蒋源德阅读(814) 评论(0) 推荐(0)

数据挖掘算法之关联规则挖掘（二）FPGrowth算法

摘要：之前介绍的apriori算法中因为存在许多的缺陷，例如进行大量的全表扫描和计算量巨大的自然连接，所以现在几乎已经不再使用在mahout的算法库中使用的是PFP算法，该算法是FPGrowth算法的分布式运行方式，其内部的算法结构和FPGrowth算法相差并不是十分巨大所以这里首先介绍在单机内存... 阅读全文

posted @ 2015-04-24 13:08 蒋源德阅读(522) 评论(0) 推荐(0)

2015年4月23日

数据挖掘算法之关联规则挖掘（一）apriori算法

摘要：关联规则挖掘算法在生活中的应用处处可见，几乎在各个电子商务网站上都可以看到其应用举个简单的例子如当当网，在你浏览一本书的时候，可以在页面中看到一些套餐推荐，本书+有关系的书1+有关系的书2+...+其他物品=多少￥而这些套餐就很有可能符合你的胃口，原本只想买一本书的你可能会因为这个推荐而买... 阅读全文

posted @ 2015-04-23 22:55 蒋源德阅读(438) 评论(0) 推荐(0)

2015年4月21日

maven的安装和eclipse的配置以及构建mahout基本项目

摘要： maven介绍在此略过下载地址：点击打开链接windows下载xxx-bin.zip文件linux下载xxx-bin.tar.gz这里以windows为例下载完成直接解压到一个目录下计算机--右键--属性--高级系统设置--环境变量--在系统变量中新建M2_HOME，值为maven解压的路径在系统变... 阅读全文

posted @ 2015-04-21 20:12 蒋源德阅读(451) 评论(0) 推荐(0)

2015年4月17日

数据挖掘算法之聚类分析（三）朴素贝叶斯算法

摘要：贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类对于分类问题，其实谁都不会陌生，每个人生活中无时不刻的在进行着分类。例如，走在大马路上看到女孩子，你会下意识的将她分为漂亮和不漂亮（漂亮当然就多看几眼啦）。在比如，在路上遇到一只狗，你会根据这只狗的毛发脏不脏，然后想到这... 阅读全文

posted @ 2015-04-17 09:29 蒋源德阅读(3987) 评论(0) 推荐(0)

2015年4月15日

mahout之canopy算法简单理解

摘要： canopy是聚类算法的一种实现它是一种快速，简单，但是不太准确的聚类算法canopy通过两个人为确定的阈值t1，t2来对数据进行计算，可以达到将一堆混乱的数据分类成有一定规则的n个数据堆由于canopy算法本身的目的只是将混乱的数据划分成大概的几个类别，所以它是不太准确的但是通过canopy计算出... 阅读全文

posted @ 2015-04-15 19:01 蒋源德阅读(665) 评论(0) 推荐(0)

mahout运行测试与kmeans算法解析

摘要：在使用mahout之前要安装并启动hadoop集群将mahout的包上传至linux中并解压即可mahout下载地址：点击打开链接mahout中的算法大致可以分为三大类：聚类，协同过滤和分类其中常用聚类算法有：canopy聚类，k均值算法（kmeans），模糊k均值，层次聚类，LDA聚类等常用分类算... 阅读全文

posted @ 2015-04-15 19:00 蒋源德阅读(1685) 评论(0) 推荐(0)

2015年4月11日

数据挖掘算法之聚类分析（二）canopy算法

摘要： canopy是聚类算法的一种实现它是一种快速，简单，但是不太准确的聚类算法canopy通过两个人为确定的阈值t1，t2来对数据进行计算，可以达到将一堆混乱的数据分类成有一定规则的n个数据堆由于canopy算法本身的目的只是将混乱的数据划分成大概的几个类别，所以它是不太准确的但是通过canopy计算出... 阅读全文

posted @ 2015-04-11 19:18 蒋源德阅读(941) 评论(0) 推荐(0)

2015年4月10日

mahout运行测试与数据挖掘算法之聚类分析（一）kmeans算法解析

摘要：在使用mahout之前要安装并启动hadoop集群将mahout的包上传至linux中并解压即可 mahout下载地址：点击打开链接 mahout中的算法大致可以分为三大类：聚类，协同过滤和分类其中常用聚类算法有：canopy聚类，k均值算法（kmeans），模糊k均值，层次聚类... 阅读全文

posted @ 2015-04-10 20:25 蒋源德阅读(275) 评论(0) 推荐(0)

公告