随笔分类 - Spark
摘要:2.5 RDD 中的函数传递 在实际开发中我们往往需要自己定义一些对于 RDD 的操作,那么此时需要主要的 是,初始化工作是在 Driver 端进行的,而实际运行程序是在 Executor 端进行的,这就涉及 到了跨进程通信,是需要序列化的。下面我们看几个例子: 2.5.1 传递一个方法 1.创建一
        阅读全文
                
摘要:2.4 Action 行动算子:触发运算,在 Executor 执行,如果想直接在 Driver 端看到结果可以使用 collect 和 foreach 都可以将数据拉取到 Driver 端。 2.4.1 reduce(func) 案例 1. 作用:通过 func 函数聚集 RDD 中的所有元素,先
        阅读全文
                
摘要:2.RDD 编 程 2.RDD 编 程 在 Spark 中,RDD 被表示为对象,通过对象上的方法调用来对 RDD 进行转换。经过 一系列的 transformations 定义 RDD 之后,就可以调用 actions 触发 RDD 的计算,action 可 以是向应用程序返回结果(count, 
        阅读全文
                
摘要:1 RDD 概述 1.1 什么是 RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据 抽象。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算 的集合。 WordCount: 1.2 RDD 的属性
        阅读全文
                
摘要:maven打包时报错: 报错信息: 解决方法: 因为配置了JobHistoryServer所以需要启动 yarn 和 HDFS spark-shell 启动报错: 解决方法: 因为配置了JobHistoryServer所以需要启动 yarn 和 HDFS
        阅读全文
                
摘要:案例实操 Spark Shell 仅在测试和验证我们的程序时使用的较多,在生产环境中,通常会在 IDE 中编制程序,然后打成 jar 包,然后提交到集群,最常用的是创建一个 Maven 项目,利用 Maven 来管理 jar 包的依赖。 1 编写 WordCount 程序 1)创建一个 Maven 
        阅读全文
                
摘要:Local 模式: 1.概述: Local模式就是运行在一台计算机上的模式,通常就是用于在本机上练手和测试。 它可以通过以下集中方式设置Master。 local: 所有计算都运行在一个线程当中,没有任何并行计算,通常我们在本机执行 一些测试代码,或者练手,就用这种模式; local[K]: 指定使
        阅读全文
                
摘要:1 Spark 概述 1.1 什么是 Spark 1.2 Spark 内置模块 Spark Core:实现了 Spark 的基本功能,包含任务调度、内存管理、错误恢复、与存储 系统交互等模块。Spark Core 中还包含了对弹性分布式数据集(Resilient Distributed DataSe
        阅读全文
                
 
                     
                    
                 
                    
                
 
         浙公网安备 33010602011771号
浙公网安备 33010602011771号