spark - 随笔分类 - ljy2013

idea构建spark开发环境，并本地运行wordcount

摘要：1、首先现在idea，官网：https://www.jetbrains.com/idea/ 2、安装jdk1.8，scala2.11 3、下载idea后，需要在idea中安装scala的插件，安装的方式如下： File >settings >Plugins >输入scala（下图是我已经安装好了）阅读全文

posted @ 2018-07-17 10:52 ljy2013 阅读(1794) 评论(0) 推荐(0)

Mac上配置maven+eclipse+spark开发环境

摘要：1、安装jdk 2、下载scala-ide。官网：http://scala-ide.org 3、安装maven 4、在eclipse中，配置maven的安装了路径。偏好设置 >maven >installpath 5、修改maven的镜像文件，即setting.txt中的mirror。具体修改为如下阅读全文

posted @ 2017-03-11 00:05 ljy2013 阅读(1547) 评论(0) 推荐(0)

SparkStreaming运行出现 java.lang.NoClassDefFoundError: org/apache/htrace/Trace 错误

摘要：1、简介最近在摸索利用sparkstreaming从kafka中准实时的读取数据，并将在读取的过程中，可以做一个简单的分析，最后将分析结果写入hbase中。 2、出现的问题（1）将从kafka中读取数据的程序打包到服务器上运行，发现需要用kafka相关的包，因此采用assembly的方法打包即可阅读全文

posted @ 2016-01-30 11:56 ljy2013 阅读(4885) 评论(0) 推荐(0)

Kafka的安装和部署及测试

摘要：1、简介大数据分析处理平台包括数据的接入，数据的存储，数据的处理，以及后面的展示或者应用。今天我们连说一下数据的接入，数据的接入目前比较普遍的是采用kafka将前面的数据通过消息的方式，以数据流的形式将数据接入到大数据存储平台。下面主要介绍一下kafka的安装和部署的过程。由于公司采用的是c... 阅读全文

posted @ 2016-01-26 13:16 ljy2013 阅读(2478) 评论(2) 推荐(0)

Spark相关错误汇总

摘要：前面介绍了Spark开发环境的搭建，下面将在实际开发过程中遇到的一些问题汇总一下：1、Exception in thread "main" com.typesafe.config.ConfigException$Missing: No configuration setting found for ... 阅读全文

posted @ 2015-12-21 16:52 ljy2013 阅读(1759) 评论(0) 推荐(0)

Spark External Datasets

摘要：Spark能够从任何支持Hadoop的存储源来创建RDD，包括本地的文件系统，HDFS，Cassandra，Hbase，Amazon S3等。Spark支持textFile、SequenceFiles和任何其他的Hadoop的InputFormat格式的数据。1、textfile的RDD可以通过... 阅读全文

posted @ 2015-12-21 15:34 ljy2013 阅读(558) 评论(0) 推荐(0)

SparkSQL读取Hive中的数据

摘要：由于我Spark采用的是Cloudera公司的CDH，并且安装的时候是在线自动安装和部署的集群。最近在学习SparkSQL，看到SparkSQL on HIVE。下面主要是介绍一下如何通过SparkSQL在读取HIVE的数据。（说明：如果不是采用CDH在线自动安装和部署的话，可能需要对源码进行编译，... 阅读全文

posted @ 2015-12-11 17:10 ljy2013 阅读(39848) 评论(1) 推荐(0)

Spark的WorkCount的例子

摘要：之前为了搭建scala开发spark的环境花了几天的时间，终于搞定了，具体可以参考：http://www.cnblogs.com/ljy2013/p/4964201.html 。下面就是用一个示例来测试自己的开发环境了，于是就只用了大数据比较经典的例子：WordCount。下面详细说明一下：1、首先... 阅读全文

posted @ 2015-11-16 15:18 ljy2013 阅读(6945) 评论(0) 推荐(1)

eclipse创建maven管理Spark的scala

摘要：说明，由于spark是用scala写的。因此，不管是在看源码还是在写spark有关的代码的时候，都最好是用scala。那么作为一个程序员首先是必须要把手中的宝剑给磨砺了。那就是创建好编写scala的代码环境。在这里由于我个人之前比较熟悉eclipse（虽然觉得他有点掉档次，踏实工具嘛，当然最好是选择... 阅读全文

posted @ 2015-11-14 13:08 ljy2013 阅读(1181) 评论(0) 推荐(0)

浅谈大数据神器Spark中的RDD

摘要：1、究竟什么是RDD呢？有人可能会回答是：Resilient Distributed Dataset。没错，的确是如此。但是我们问这个实际上是想知道RDD到底是个什么东西？以及它到底能干嘛？好的，有了问题，那么我们带着问题往下看，总会有答案的。2、hadoop的计算模型&spark的计算模型（1）首... 阅读全文

posted @ 2015-11-11 14:51 ljy2013 阅读(751) 评论(0) 推荐(0)

大数据的成长历程

摘要：大数据是用scala语言，和java有些不同又比java强大，省去了很多繁琐的东西，scala中的的接口用trait来定义，不同于java的接口，trait中可以有抽象方法也可以有不抽象方法。scala中的方法中还可以定义方法，这在java中是从来没有的。大数据未来几年发展的重点方向，大数据战略已经... 阅读全文

posted @ 2015-11-10 10:11 ljy2013 阅读(324) 评论(0) 推荐(0)

Spark的编译

摘要：由于Spark的运行环境的多样性，如可以运行在hadoop的yarn上，这样就必须要对Spark的源码进行编译。下面介绍一下Spark源码编译的详细步骤：1、Spark的编译方式：编译的方式可以参考官网：https://spark.apache.org/docs/latest/building-... 阅读全文

posted @ 2015-06-11 11:56 ljy2013 阅读(1090) 评论(0) 推荐(0)

spark1.3.1安装和集群的搭建

摘要：由于越来越多的人开始使用spark计算框架了，而且spark计算框架也是可以运行在yarn的平台上，因此可以利用单个集群，运行多个计算框架。这是一些大公司都是这么干的。好了，下面讲一下spark1.3.1是如何安装到集群上去的。 1、由于spark的计算框架依赖于scala，因此在安装spar... 阅读全文

posted @ 2015-04-28 19:45 ljy2013 阅读(1793) 评论(0) 推荐(0)

随笔分类 - spark

公告

导航