随笔分类 -  Spark

摘要:日志分析 问题:如何将p(4)里面的继续切分 阅读全文
posted @ 2017-03-07 20:27 邬家栋 阅读(1448) 评论(0) 推荐(0) 编辑
摘要:spark SQL初步认识 spark SQL是spark的一个模块,主要用于进行结构化数据的处理。它提供的最核心的编程抽象就是DataFrame。 DataFrame:它可以根据很多源进行构建,包括:结构化的数据文件,hive中的表,外部的关系型数据库,以及RDD 创建DataFrame 数据文件 阅读全文
posted @ 2017-03-07 20:22 邬家栋 阅读(14058) 评论(0) 推荐(0) 编辑
摘要:需求:统计每日销售额 运行结果 阅读全文
posted @ 2017-03-07 20:19 邬家栋 阅读(1823) 评论(0) 推荐(0) 编辑
摘要:需求:统计每日uv 运行结果 阅读全文
posted @ 2017-03-07 20:18 邬家栋 阅读(2377) 评论(0) 推荐(0) 编辑
摘要:spark连接mysql(打jar包方式) 提交集群 运行结果 常见报错1 如果添加了命令和jar运行也不行,则用以下办法 常见报错2 spark连接mysql(spark shell方式) 方式1 方式2 方式3 阅读全文
posted @ 2017-03-07 20:15 邬家栋 阅读(22446) 评论(0) 推荐(1) 编辑
摘要:spark 读取hive中的数据 spark载入数据到hive 两个文件 scala代码 参考资料 http://dblab.xmu.edu.cn/blog/1086 2/ 参考资料 http://blog.csdn.net/ggz631047367/article/details/50445877 阅读全文
posted @ 2017-03-07 20:14 邬家栋 阅读(11170) 评论(0) 推荐(0) 编辑
摘要:准备工作 数据文件students.json 存放目录:hdfs://master:9000/student/2016113012/spark/students.json scala代码 package wujiadong_sparkSQL import org.apache.spark.sql.S 阅读全文
posted @ 2017-03-07 20:12 邬家栋 阅读(3437) 评论(0) 推荐(0) 编辑
摘要:Parquet是面向分析型业务得列式存储格式 编程方式加载数据 代码示例 ` 运行结果 自动分区 合并元数据 1)读取parquet文件时,将数据源的选项mergeSchema,设置为true 2)使用SQLContext.setConf()方法,将spark.sql.parquet.mergeSc 阅读全文
posted @ 2017-03-07 20:11 邬家栋 阅读(930) 评论(0) 推荐(0) 编辑
摘要:load操作:主要用于加载数据,创建出DataFrame save操作:主要用于将DataFrame中的数据保存到文件中 代码示例(默认为parquet数据源类型) 提交集群运行 运行后查看是否保存成功 手动指定数据源类型(进行格式转换很方便) 默认情况下不指定数据源类型的话就是parquet类型 阅读全文
posted @ 2017-03-07 20:08 邬家栋 阅读(2401) 评论(0) 推荐(0) 编辑
摘要:练习0(并行化创建RDD) 练习1(map,filter) 练习2(map和flatMap) 练习3(union,intersecttion,distinct) 练习4(sortBy) 练习5(groupByKey,reduceByKey,sortByKey) 练习6(join) 练习7(reduc 阅读全文
posted @ 2017-03-05 18:48 邬家栋 阅读(3271) 评论(0) 推荐(1) 编辑
摘要:在目录/home/hadoop/2016113012下有文件words.txt 上传该文件到hdfs 启动spark shell 在spark shell中使用Scala编写spark程序 阅读全文
posted @ 2017-03-04 21:18 邬家栋 阅读(407) 评论(0) 推荐(0) 编辑
摘要:报错1 解决办法 报错2 解决办法 运行之后还是报这个错的话,原因可能是scala版本兼容,我从scala2.11到scala2.10,就可以了 阅读全文
posted @ 2017-03-03 18:26 邬家栋 阅读(1345) 评论(0) 推荐(0) 编辑
摘要:RDD及其特点 1)RDD(Resillient Distributed Dataset)弹性分布式数据集,是spark提供的核心抽象。它代表一个不可变、可分区、里面的元素可并行计算的集合 2)RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上 阅读全文
posted @ 2017-02-11 13:47 邬家栋 阅读(597) 评论(0) 推荐(0) 编辑
摘要:spark采用的是主从式的架构,主节点叫master,从节点是worker Driver 我们编写的spark就在Driver上,由driver进程执行。 Driver是spark集群的节点之一,或你提交spark程序的机器 Master master是集群的资源管理者和调度者,类似yarn里面的R 阅读全文
posted @ 2017-02-11 13:45 邬家栋 阅读(1241) 评论(0) 推荐(0) 编辑
摘要:wordcount程序 文件wordcount.txt 程序示例 运行结果 阅读全文
posted @ 2017-02-11 13:40 邬家栋 阅读(927) 评论(0) 推荐(0) 编辑
摘要:第一步:启动IntelliJ IDEA,选择Create New Project,然后选择Scala,点击下一步,输入项目名称wujiadong.spark继续下一步 第二步:导入spark assembly 1.5.1 hadoop2.6.0.jar包 File——Project Structur 阅读全文
posted @ 2017-02-02 20:39 邬家栋 阅读(9718) 评论(0) 推荐(1) 编辑
摘要:第一步:安装spark 将官网下载好的spark 2.0.0 bin hadoop2.6.tgz上传到/usr/spark目录下。这里需注意的是spark和hadoop有对应版本关系 第二步:修改配置文件 第三步:在spark2和spark3节点上也安装spark 第四步:验证spark以及进入sp 阅读全文
posted @ 2016-12-31 22:19 邬家栋 阅读(596) 评论(0) 推荐(0) 编辑
摘要:Centos下Scala安装 上传Scala到/usr/scala目录下 阅读全文
posted @ 2016-12-31 21:03 邬家栋 阅读(548) 评论(0) 推荐(0) 编辑
摘要:第一步:Hbase安装 hadoop,zookeeper前面都安装好了 将hbase 1.1.3 bin.tar.gz上传到/usr/HBase目录下 第二步:修改配置文件 编辑 hbase env.xml 编辑 hbase site.xml 编辑 regionservers 第三步:搭建hbase 阅读全文
posted @ 2016-12-15 21:57 邬家栋 阅读(519) 评论(0) 推荐(0) 编辑
摘要:第一步:zookeeper安装 通过WinSCP软件将zookeeper 3.4.8.tar.gz软件传送到/usr/zookeeper/目录下 第二步:配置zoo.cfg 第三步:设置zookeeper节点标识 第四步:搭建zookeeper集群 在两个节点上按照上述步骤配置ZooKeeper,使 阅读全文
posted @ 2016-12-15 14:03 邬家栋 阅读(969) 评论(0) 推荐(0) 编辑