Spark - 随笔分类 - 末

摘要：一、mysql作为数据源 mysql数据：二、Spark写出数据格式三、Json作为数据源四、Csv作为数据源阅读全文

posted @ 2019-01-20 23:32 末阅读(691) 评论(0) 推荐(0)

摘要：一、SparkSQL介绍二、DataFrame介绍三、SQL风格 1、SqlTest1 2、user.txt 3、结果四、toDF使用五、DSL风格结果：六、WordCount 1、SqlWordCount 2、words.txt 3、结果七、Join操作 1、JoinDemo 2、结阅读全文

posted @ 2019-01-20 23:03 末阅读(416) 评论(0) 推荐(0)

Spark-自定义排序

摘要：一、自定义排序规则-封装类结果：二、二、自定义排序规则-模式匹配结果：三、三、自定义排序规则-隐式转换结果：阅读全文

posted @ 2019-01-19 23:54 末阅读(1251) 评论(0) 推荐(0)

Spark-Cache与Checkpoint

摘要：一、Cache缓存操作二、Checpoint机制阅读全文

posted @ 2019-01-19 23:42 末阅读(398) 评论(0) 推荐(0)

Spark与mysql整合

摘要：一、需求：把最终结果存储在mysql中 1、UrlGroupCount1类 2、mysql创建数据库和表 3、结果二、Spark提供的连接mysql的方式--jdbcRDD 1、JdbcRDDDemo类 2、结果阅读全文

posted @ 2019-01-16 00:10 末阅读(2075) 评论(0) 推荐(0)

Spark案例分析

摘要：一、需求：计算网页访问量前三名结果：二、需求：求出每个学院访问第一位的网址结果：三、需求：加入自定义分区，按照学院分区，相同的学院分为一个结果文件结果： 1、part-00000 2、part-00001 3、part-00002 四、pom.xml文件五、数据access.log 2 阅读全文

posted @ 2019-01-15 21:35 末阅读(336) 评论(0) 推荐(0)

Spark-RDD算子

摘要：一、Spark-RDD算子简介二、RDD创建例子：三、常用Transformation 1、map(func) 2、flatMap(func) 3、sortby 4、reduceByKey 5、filter 过滤 6、union 并集 7、groupByKey 分组 8、intersectio 阅读全文

posted @ 2019-01-13 20:02 末阅读(308) 评论(0) 推荐(0)

Spark集群安装和WordCount编写

摘要：一、Spark概述二、Spark特点三、Spark安装部署四、启动sparkshell 五、spark集群角色六、Shell编写WordCount 1、本地模式：bin/spark-shell 其中words.txt文件内容如下 2、集群启动：bin/spark-shell --maste 阅读全文

posted @ 2019-01-10 22:42 末阅读(593) 评论(0) 推荐(0)

随笔分类 - Spark