随笔分类 -  Spark技术

关于Spark的相关技术文档
多种语言开发Spark-以WordCount为例
摘要:Spark是目前最火爆的大数据计算框架,有赶超Hadoop MapReduce的趋势。因此,趁着现在还有大多数人不懂得Spark开发的,赶紧好好学习吧,为了使不同的开发人员能够很好的利用Spark,Spark官方提供了不同开发语言的API,本文以大数据经典入门案例WordCount为例,开发多个版本 阅读全文
posted @ 2017-03-15 14:11 低调才是王道 阅读(559) 评论(0) 推荐(1)
Spark MLlib使用有感
摘要:这些天在公司里面做文本分析的任务,我跟着玻哥一起做,先研究了算法的可行度,最后决定使用Google的Word2Vector和LDA算法来对文本进行分析。之前因为看过一些Spark的东西,所以准备瞄准MLlib,直接使用其机器学习库来进行算法的测试。 但是发现一个非常重大的问题——因为Spark默认是 阅读全文
posted @ 2015-08-12 17:03 低调才是王道 阅读(971) 评论(0) 推荐(1)
window环境下使用sbt编译spark源码
摘要:前些天用maven编译打包spark,搞得焦头烂额的,各种错误,层出不穷,想想也是醉了,于是乎,换种方式,使用sbt编译,看看人品如何! 首先,从官网spark官网下载spark源码包,解压出来。我这边使用的是1.4.0版本。 然后,我们需要把sbt配置好,配置很简单,无非就是SBT_HOME什么的 阅读全文
posted @ 2015-07-09 18:11 低调才是王道 阅读(2180) 评论(0) 推荐(0)
Spark1.3.1 On Yarn的集群搭建
摘要:下面给出的是spark集群搭建的环境: 操作系统:最小安装的CentOS 7(下载地址) Yarn对应的hadoop版本号:Hadoop的Cloudera公司发行版Hadoop2.6.0-CDH5.4.0(下载地址) Java版本号:JDK1.8(下载地址) Scala版本号:Scala2.10.4 阅读全文
posted @ 2015-06-10 10:44 低调才是王道 阅读(793) 评论(0) 推荐(1)