随笔分类 -  Spark

Spark 数据倾斜
摘要:Spark 数据倾斜解决方案 2017年03月29日 17:09:58 阅读数:382 Spark 数据倾斜解决方案 2017年03月29日 17:09:58 阅读数:382 Spark 数据倾斜解决方案 Spark 数据倾斜解决方案 2017年03月29日 17:09:58 阅读数:382 201 阅读全文
posted @ 2018-08-13 09:09 裸睡的猪
广播变量与累加器
摘要:广播变量与累加器 广播变量与累加器 1.广播变量机制 将传递给task的值,变成传递给executor。 为什么可以共用,因为task是executor下的线程。 只读的变量,在task中不允许修改 2.累加器介绍 在只写的变量,在task中只允许被修改,不允许读的操作。 但是在driver中就只能 阅读全文
posted @ 2018-08-03 15:54 裸睡的猪
Spark join连接
摘要:内链接 阅读全文
posted @ 2018-08-01 09:33 裸睡的猪
countByValue
摘要:[1,2,3,3]的RDD rdd.foreach(println) 1 2 3 3 阅读全文
posted @ 2018-07-31 21:26 裸睡的猪
spark aggregate
摘要:。与fold() 类似,使用aggregate() 时,需要提供我们期待返回的类型的初始值。然后通过一个函数把RDD 中的元素合并起来放入累加器。lambda acc, value: (acc[0] + value, acc[1] + 1) 考虑到每个节点是在本地进行累加的,最终,还需要提供第二个函 阅读全文
posted @ 2018-07-31 20:59 裸睡的猪
scala下划线
摘要:作为函数的参数 一个匿名的函数传递给一个方法或者函数的时候,scala会尽量推断出参数类型。例如一个完整的匿名函数作为参数可以写为 scala> def compute(f: (Double)=>Double) = f(3) compute: (f: Double => Double)Double 阅读全文
posted @ 2018-07-25 17:17 裸睡的猪
elasticsearch简介
摘要: 阅读全文
posted @ 2018-06-28 15:10 裸睡的猪
keyvalue对RDD s
摘要:scala> val input =sc.textFile("/home/simon/SparkWorkspace/test.txt")input: org.apache.spark.rdd.RDD[String] = /home/simon/SparkWorkspace/test.txt MapP 阅读全文
posted @ 2018-06-28 11:33 裸睡的猪
RDD特性
摘要: 阅读全文
posted @ 2018-06-28 10:42 裸睡的猪
RDD
摘要:scala> val rdd1=sc.parallelize(Array("coffe","coffe","hellp","hellp","pandas","mokey") )rdd1: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD 阅读全文
posted @ 2018-06-28 09:49 裸睡的猪
Spark开发第一个程序
摘要:simon@simon-Lenovo-G400:~/.ssh$ touch authorized_keyssimon@simon-Lenovo-G400:~/.ssh$ cat id_rsa.pub > authorized_keyssimon@simon-Lenovo-G400:~/.ssh$ c 阅读全文
posted @ 2018-06-26 22:22 裸睡的猪
Spark安装
摘要:count文件的行数 first文件的首航元素 idel主题颜色配置 光标颜色行 修改 阅读全文
posted @ 2018-06-26 21:26 裸睡的猪
Spark简介
摘要: 阅读全文
posted @ 2018-06-26 20:40 裸睡的猪