随笔分类 - spark
安装
摘要:当使用./spark-shell 命令报错 抛出了很多错误,甚至我退出spark-shell,再次进入抛出的错误还不一样,最后一个错误是Name node is in safe mode. 先解决这个网上说这是hdfs的分布式文件系统的安全模式,当安全模式时文件系统中的内容不允许修改和删除,直到安全
阅读全文
摘要:sparkStreaming是以连续bathinterval为单位,进行bath计算,在流式计算中,如果我们想维护一段数据的状态,就需要持久化上一段的数据,sparkStreaming提供的MapwithState函数,用于更新数据状态。 例子:(更新用户当前的操作状态) 1:定义用户会话类 pac
阅读全文
摘要:Consumer代码 import org.apache.spark.SparkConf import org.apache.spark.streaming.StreamingContext import org.apache.spark.streaming.Seconds import org.a
阅读全文
摘要:(1)下载kafka的jar包 http://kafka.apache.org/downloads spark2.1 支持kafka0.8.2.1以上的jar,我是spark2.0.2,下载的kafka_2.11-0.10.2.0 (2)Consumer代码 package com.sparkstr
阅读全文
摘要:从hdfs上加载文件并创建graph scala> var graphs = GraphLoader.edgeListFile(sc,"/tmp/dataTest/graphTest.txt") graphs: org.apache.spark.graphx.Graph[Int,Int] = org
阅读全文
摘要:(小案例,有五个人他们参见相亲节目,这个五个人分别是0,1,2,3,4,号选手,计算出追随者年龄大于被追随者年龄的人数和平均年龄) scala> import org.apache.spark._ import org.apache.spark._ scala> import org.apache.
阅读全文
摘要:ation算子通过sparkContext执行提交作业的runJob,触发rdd的DAG执行 (foreach) foreach(f) 会对rdd中的每个函数进行f操作,下面的f操作就是打印输出没有元素 saveAsTextFile foreach(f) 会对rdd中的每个函数进行f操作,下面的f操
阅读全文
摘要:transgormation的算子对key-value类型的数据有三种: (1)输入 与 输出为一对一关系 mapValue();针对key-value类型的数据并只对其中的value进行操作,不对key进行操作 (2)对单个rdd聚集 (2)对单个rdd聚集 combineByKey 相当于将(v
阅读全文
摘要:value类型的算子 处理数据类型为value型的算子(也就是这个算子只处理数据类型为value的数据),可以根据rdd的输入分区与输出分区的关系分为以下几个类型 (1)输入分区与输出分区一对一型 map型:对rdd的每个数据项,通过用户自定义的函数映射转换成一个新的rdd 上面4个方框表示4个rd
阅读全文
摘要:测试数据 sparkStu.text zhangxs 24 chenxy wangYr 21 teacher wangx 26 teacher sparksql { "name":"zhangxs","age":24,"job":"chengxy", "name":"li","age":21,"jo
阅读全文
摘要:加载文件 scala> var f1=sc.textFile("/tmp/dataTest/followers.txt") scala> var f1=sc.textFile("/tmp/dataTest/followers.txt") scala> f1.flatMap(x=>x.split("-
阅读全文
摘要:定义不带参数也不带返回值的函数(def :定义函数的关键字 printz:方法名称) scala> def printz = print("scala hello") 定义带参数也带返回值的函数(这种函数在定义时也可以不带返回值的类型,scala会自动推算出。建议还是带上) scala> def m
阅读全文
摘要:RDD是spark抽象的基石,可以说整个spark编程就是对RDD进行的操作 RDD是弹性的分布式数据集,它是只读的,可分区的,这个数据集的全部或者部分数据可以缓存在内存中,在多次计算间重用。所谓的弹性意思是:内存不够时可以与磁盘进行交换。这是RDD另一个特性:内存计算。就是将数据保存到内存中,同时
阅读全文
摘要:将工程打成jar 放入到linux中 切换到[root@node4 Desktop]# cd /usr/local/development/spark-2.0-hadoop2.6/bin/ 输入命令 打印出结果
阅读全文
摘要:一,在官网下载对应的版本http://spark.apache.org/downloads.html 二在linux中解压下来的spark包 三:配置环境变量 (1)在/etc/profile文件添加如下 export SPARK_HOME=/usr/local/development/spark-
阅读全文