idea构建spark开发环境,并本地运行wordcount
摘要:1、首先现在idea,官网:https://www.jetbrains.com/idea/ 2、安装jdk1.8,scala2.11 3、下载idea后,需要在idea中安装scala的插件,安装的方式如下: File >settings >Plugins >输入scala(下图是我已经安装好了)
阅读全文
Mac上配置maven+eclipse+spark开发环境
摘要:1、安装jdk 2、下载scala-ide。官网:http://scala-ide.org 3、安装maven 4、在eclipse中,配置maven的安装了路径。偏好设置 >maven >installpath 5、修改maven的镜像文件,即setting.txt中的mirror。具体修改为如下
阅读全文
SparkStreaming运行出现 java.lang.NoClassDefFoundError: org/apache/htrace/Trace 错误
摘要:1、简介 最近在摸索利用sparkstreaming从kafka中准实时的读取数据,并将在读取的过程中,可以做一个简单的分析,最后将分析结果写入hbase中。 2、出现的问题 (1)将从kafka中读取数据的程序打包到服务器上运行,发现需要用kafka相关的包,因此采用assembly的方法打包即可
阅读全文
Kafka的安装和部署及测试
摘要:1、简介 大数据分析处理平台包括数据的接入,数据的存储,数据的处理,以及后面的展示或者应用。今天我们连说一下数据的接入,数据的接入目前比较普遍的是采用kafka将前面的数据通过消息的方式,以数据流的形式将数据接入到大数据存储平台。 下面主要介绍一下kafka的安装和部署的过程。由于公司采用的是c...
阅读全文
Spark相关错误汇总
摘要:前面介绍了Spark开发环境的搭建,下面将在实际开发过程中遇到的一些问题汇总一下:1、Exception in thread "main" com.typesafe.config.ConfigException$Missing: No configuration setting found for ...
阅读全文
Spark External Datasets
摘要:Spark能够从任何支持Hadoop的存储源来创建RDD,包括本地的文件系统,HDFS,Cassandra,Hbase,Amazon S3等。Spark支持textFile、SequenceFiles和任何其他的Hadoop的InputFormat格式的数据。1、textfile的RDD可以通过...
阅读全文
SparkSQL读取Hive中的数据
摘要:由于我Spark采用的是Cloudera公司的CDH,并且安装的时候是在线自动安装和部署的集群。最近在学习SparkSQL,看到SparkSQL on HIVE。下面主要是介绍一下如何通过SparkSQL在读取HIVE的数据。(说明:如果不是采用CDH在线自动安装和部署的话,可能需要对源码进行编译,...
阅读全文
Spark的WorkCount的例子
摘要:之前为了搭建scala开发spark的环境花了几天的时间,终于搞定了,具体可以参考:http://www.cnblogs.com/ljy2013/p/4964201.html 。下面就是用一个示例来测试自己的开发环境了,于是就只用了大数据比较经典的例子:WordCount。下面详细说明一下:1、首先...
阅读全文
eclipse创建maven管理Spark的scala
摘要:说明,由于spark是用scala写的。因此,不管是在看源码还是在写spark有关的代码的时候,都最好是用scala。那么作为一个程序员首先是必须要把手中的宝剑给磨砺了。那就是创建好编写scala的代码环境。在这里由于我个人之前比较熟悉eclipse(虽然觉得他有点掉档次,踏实工具嘛,当然最好是选择...
阅读全文
浅谈大数据神器Spark中的RDD
摘要:1、究竟什么是RDD呢?有人可能会回答是:Resilient Distributed Dataset。没错,的确是如此。但是我们问这个实际上是想知道RDD到底是个什么东西?以及它到底能干嘛?好的,有了问题,那么我们带着问题往下看,总会有答案的。2、hadoop的计算模型&spark的计算模型(1)首...
阅读全文
大数据的成长历程
摘要:大数据是用scala语言,和java有些不同又比java强大,省去了很多繁琐的东西,scala中的的接口用trait来定义,不同于java的接口,trait中可以有抽象方法也可以有不抽象方法。scala中的方法中还可以定义方法,这在java中是从来没有的。大数据未来几年发展的重点方向,大数据战略已经...
阅读全文
Spark的编译
摘要:由于Spark的运行环境的多样性,如可以运行在hadoop的yarn上,这样就必须要对Spark的源码进行编译。下面介绍一下Spark源码编译的详细步骤:1、Spark的编译方式:编译的方式可以参考官网:https://spark.apache.org/docs/latest/building-...
阅读全文
spark1.3.1安装和集群的搭建
摘要:由于越来越多的人开始使用spark计算框架了,而且spark计算框架也是可以运行在yarn的平台上,因此可以利用单个集群,运行多个计算框架。这是一些大公司都是这么干的。好了,下面讲一下spark1.3.1是如何安装到集群上去的。 1、由于spark的计算框架依赖于scala,因此在安装spar...
阅读全文