随笔分类 -  Spark

Spark 数据源
摘要:一、mysql作为数据源 mysql数据: 二、Spark写出数据格式 三、Json作为数据源 四、Csv作为数据源 阅读全文
posted @ 2019-01-20 23:32 阅读(691) 评论(0) 推荐(0)
Spark SQL
摘要:一、SparkSQL介绍 二、DataFrame介绍 三、SQL风格 1、SqlTest1 2、user.txt 3、结果 四、toDF使用 五、DSL风格 结果: 六、WordCount 1、SqlWordCount 2、words.txt 3、结果 七、Join操作 1、JoinDemo 2、结 阅读全文
posted @ 2019-01-20 23:03 阅读(416) 评论(0) 推荐(0)
Spark-自定义排序
摘要:一、自定义排序规则-封装类 结果: 二、 二、自定义排序规则-模式匹配 结果: 三、 三、自定义排序规则-隐式转换 结果: 阅读全文
posted @ 2019-01-19 23:54 阅读(1251) 评论(0) 推荐(0)
Spark-Cache与Checkpoint
摘要:一、Cache缓存操作 二、Checpoint机制 阅读全文
posted @ 2019-01-19 23:42 阅读(398) 评论(0) 推荐(0)
Spark与mysql整合
摘要:一、需求:把最终结果存储在mysql中 1、UrlGroupCount1类 2、mysql创建数据库和表 3、结果 二、Spark提供的连接mysql的方式--jdbcRDD 1、JdbcRDDDemo类 2、结果 阅读全文
posted @ 2019-01-16 00:10 阅读(2075) 评论(0) 推荐(0)
Spark案例分析
摘要:一、需求:计算网页访问量前三名 结果: 二、需求:求出每个学院 访问第一位的网址 结果: 三、需求:加入自定义分区,按照学院分区,相同的学院分为一个结果文件 结果: 1、part-00000 2、part-00001 3、part-00002 四、pom.xml文件 五、数据access.log 2 阅读全文
posted @ 2019-01-15 21:35 阅读(336) 评论(0) 推荐(0)
Spark-RDD算子
摘要:一、Spark-RDD算子简介 二、RDD创建 例子: 三、常用Transformation 1、map(func) 2、flatMap(func) 3、sortby 4、reduceByKey 5、filter 过滤 6、union 并集 7、groupByKey 分组 8、intersectio 阅读全文
posted @ 2019-01-13 20:02 阅读(308) 评论(0) 推荐(0)
Spark集群安装和WordCount编写
摘要:一、Spark概述 二、Spark特点 三、Spark安装部署 四、启动spark­shell 五、spark集群角色 六、Shell编写WordCount 1、本地模式:bin/spark-shell 其中words.txt文件内容如下 2、集群启动:bin/spark-shell --maste 阅读全文
posted @ 2019-01-10 22:42 阅读(593) 评论(0) 推荐(0)