随笔分类 -  Saprk实战

Mac下安装Spark开发环境(Linux系统可参照)
摘要:之前一直使用VNC在远程集群上进行Spark程序开发,但是网络的不稳定以及集群时常升级让人头疼。在这里我在自己的Mac上搭建单机Spark开发环境,作为学习开发已经足够。Linux系统用户也可以参考。一、本机环境Macbook pro retina with 8G memory二、准备工作JDK1.... 阅读全文

posted @ 2015-01-10 14:24 老杨的专栏 阅读(5063) 评论(1) 推荐(0)

Apriori算法在Spark上的实现,K-频繁相机挖掘
摘要:大家好,下面为大家分享的实战案例是K-频繁相机挖掘并行化算法。相信从事数据挖掘相关工作的同学对频繁项集的相关算法比较了解,这里我们用Apriori算法及其优化算法实现。首先说一下实验结果。对于2G,1800W条记录的数据,我们用了18秒就算完了1-8频繁项集的挖掘。应该还算不错。首先给出题目:本题的... 阅读全文

posted @ 2015-01-03 09:10 老杨的专栏 阅读(1369) 评论(1) 推荐(0)

莎士比亚文集词频统计并行化算法
摘要:大家好,好久没没更新Spark类容了,主要是最近考试比较多。今天先给大家展示一个实战案例,这个案例是我在今年参加第一届高校云计算应用创新大赛时技能赛第四题——莎士比亚文集词频统计并行化算加法。PS:感谢师兄辉哥,真大神!题目是这样的(这里截图展示出来):a在这里停词表的作用是对于在该表中的单词不予以... 阅读全文

posted @ 2015-01-03 09:08 老杨的专栏 阅读(377) 评论(0) 推荐(0)

K-频繁项集挖掘并行化算法(Apriori算法在Spark上的实现)
摘要:大家好,下面为大家分享的实战案例是K-频繁相机挖掘并行化算法。相信从事数据挖掘相关工作的同学对频繁项集的相关算法比较了解,这里我们用Apriori算法及其优化算法实现。首先说一下实验结果。对于2G,1800W条记录的数据,我们用了18秒就算完了1-8频繁项集的挖掘。应该还算不错。给出题目:本题的较第... 阅读全文

posted @ 2015-01-02 14:27 老杨的专栏 阅读(5288) 评论(4) 推荐(1)

莎士比亚文集词频统计并行化算法
摘要:大家好,好久没没更新Spark类容了,主要是最近考试比较多。今天先给大家展示一个实战案例,这个案例是我在今年参加第一届高校云计算应用创新大赛时技能赛第四题——莎士比亚文集词频统计并行化算加法。PS:感谢师兄辉哥,真大神!题目是这样的(这里截图展示出来):在这里停词表的作用是对于在该表中的单词不予... 阅读全文

posted @ 2015-01-02 10:50 老杨的专栏 阅读(952) 评论(0) 推荐(0)

导航