打赏
摘要: 不多说,直接上干货! 请移步 Spark on YARN简介与运行wordcount(master、slave1和slave2)(博主推荐) Spark on YARN模式的安装(spark-1.6.1-bin-hadoop2.6.tgz + hadoop-2.6.0.tar.gz)(master、 阅读全文
posted @ 2017-06-04 18:31 大数据和AI躺过的坑 阅读(724) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! 请移步 Spark standalone简介与运行wordcount(master、slave1和slave2) Spark standalone模式的安装(spark-1.6.1-bin-hadoop2.6.tgz)(master、slave1和slave2) 阅读全文
posted @ 2017-06-04 18:29 大数据和AI躺过的坑 阅读(1089) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! Spark任务调度 DAGScheduler 构建Stage—碰到shuffle就split 记录哪个RDD 或者Stage 输出被物化 重新提交shuffle 输出丢失的stage 将Taskset 传给底层调度器 本地性策略 preferredLocations(p) Ta 阅读全文
posted @ 2017-06-04 18:25 大数据和AI躺过的坑 阅读(2388) 评论(0) 推荐(1)
摘要: 不多说,直接上干货! Spark基本运行流程 Application program的组成 Job : 包含多个Task 组成的并行计算,跟Spark action对应。 Stage : Job 的调度单位,对应于TaskSet 。 TaskSet :一组关联的、相互之间没有shuffle 依赖关系 阅读全文
posted @ 2017-06-04 18:22 大数据和AI躺过的坑 阅读(758) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! RDD的五大特征 分区 partitions 依赖 dependencies() 计算函数 computer(p,context) 分区策略(Pair RDD)-- partitioner() 本地性策略 preferredLocations(p) 阅读全文
posted @ 2017-06-04 18:20 大数据和AI躺过的坑 阅读(2739) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! Spark编程模型几大要素 Driver Program 输入-Transformation-Action 缓存 共享变量 阅读全文
posted @ 2017-06-04 18:19 大数据和AI躺过的坑 阅读(295) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! Pair RDD的分区控制 Pair RDD的分区控制 (1) Spark 中所有的键值对RDD 都可以进行分区控制 自定义分区 (2)自定义分区的好处: 1) 避免数据倾斜 2) 控制task并行度 自定义分区方式 阅读全文
posted @ 2017-06-04 18:15 大数据和AI躺过的坑 阅读(638) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! Pair RDD的action操作 所有基础RDD 支持的行动操作也都在pair RDD 上可用 阅读全文
posted @ 2017-06-04 18:13 大数据和AI躺过的坑 阅读(312) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! Pair RDD的transformation操作 Pair RDD转换操作1 Pair RDD 可以使用所有标准RDD 上转化操作,还提供了特有的转换操作。 Pair RDD转换操作2 阅读全文
posted @ 2017-06-04 18:11 大数据和AI躺过的坑 阅读(422) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! 创建Pair RDD scala语言 Java语言 阅读全文
posted @ 2017-06-04 18:08 大数据和AI躺过的坑 阅读(2500) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! 什么是Pair RDD (1)包含键值对类型的RDD被称作Pair RDD。 (2)Pair RDD通常用来进行聚合计算。 (3)Pair RDD通常由普通RDD做ETL转换而来。 关于ETL的知识,请移步 http://www.cnblogs.com/zlslch/categ 阅读全文
posted @ 2017-06-04 18:02 大数据和AI躺过的坑 阅读(1203) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! action操作 阅读全文
posted @ 2017-06-04 17:44 大数据和AI躺过的坑 阅读(466) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! transformation操作 惰性求值 (1)RDD 的转化操作都是惰性求值的。这意味着在被调用行动操作之前Spark不会开始计算。 (2)读取数据到RDD的操作也是惰性的。 (3)惰性求值的好处: a. Spark 使用惰性求值可以把一些操作合并到一起来减少计算数据的步骤 阅读全文
posted @ 2017-06-04 17:43 大数据和AI躺过的坑 阅读(512) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! 创建RDD 方式一:从集合创建RDD (1)makeRDD (2)Parallelize 注意:makeRDD可以指定每个分区perferredLocations参数,而parallelize则没有。 方式二:读取外部存储创建RDD Spark与Hadoop完全兼容,所以对Ha 阅读全文
posted @ 2017-06-04 17:41 大数据和AI躺过的坑 阅读(475) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! 阅读全文
posted @ 2017-06-04 17:36 大数据和AI躺过的坑 阅读(363) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! 阅读全文
posted @ 2017-06-04 17:34 大数据和AI躺过的坑 阅读(335) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! 阅读全文
posted @ 2017-06-04 17:32 大数据和AI躺过的坑 阅读(322) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! 阅读全文
posted @ 2017-06-04 17:26 大数据和AI躺过的坑 阅读(535) 评论(0) 推荐(0)