spark - 随笔分类 - 卖臭豆腐喽

启动 ./spark-shell 命令报错

摘要：当使用./spark-shell 命令报错抛出了很多错误，甚至我退出spark-shell，再次进入抛出的错误还不一样，最后一个错误是Name node is in safe mode. 先解决这个网上说这是hdfs的分布式文件系统的安全模式，当安全模式时文件系统中的内容不允许修改和删除，直到安全阅读全文

posted @ 2017-07-04 00:37 卖臭豆腐喽阅读(5491) 评论(0) 推荐(0)

sparkStreaming的mapWithState函数【案例二】

摘要：sparkStreaming是以连续bathinterval为单位，进行bath计算，在流式计算中，如果我们想维护一段数据的状态，就需要持久化上一段的数据，sparkStreaming提供的MapwithState函数，用于更新数据状态。例子：（更新用户当前的操作状态） 1:定义用户会话类 pac 阅读全文

posted @ 2017-04-28 03:12 卖臭豆腐喽阅读(2300) 评论(0) 推荐(0)

sparkstreaming+socket workCount 小案例

摘要：Consumer代码 import org.apache.spark.SparkConf import org.apache.spark.streaming.StreamingContext import org.apache.spark.streaming.Seconds import org.a 阅读全文

posted @ 2017-03-30 16:38 卖臭豆腐喽阅读(686) 评论(0) 推荐(0)

spark+kafka 小案例

摘要：（1）下载kafka的jar包 http://kafka.apache.org/downloads spark2.1 支持kafka0.8.2.1以上的jar,我是spark2.0.2,下载的kafka_2.11-0.10.2.0 （2）Consumer代码 package com.sparkstr 阅读全文

posted @ 2017-03-30 16:35 卖臭豆腐喽阅读(15613) 评论(0) 推荐(0)

在集群中使用文件加载graph

摘要：从hdfs上加载文件并创建graph scala> var graphs = GraphLoader.edgeListFile(sc,"/tmp/dataTest/graphTest.txt") graphs: org.apache.spark.graphx.Graph[Int,Int] = org 阅读全文

posted @ 2017-03-23 19:48 卖臭豆腐喽阅读(1348) 评论(0) 推荐(0)

graph小案例

摘要：（小案例，有五个人他们参见相亲节目，这个五个人分别是0,1,2,3,4,号选手，计算出追随者年龄大于被追随者年龄的人数和平均年龄） scala> import org.apache.spark._ import org.apache.spark._ scala> import org.apache. 阅读全文

posted @ 2017-03-23 19:48 卖臭豆腐喽阅读(458) 评论(0) 推荐(0)

（三）spark算子分为3大类

摘要：ation算子通过sparkContext执行提交作业的runJob，触发rdd的DAG执行（foreach） foreach（f）会对rdd中的每个函数进行f操作，下面的f操作就是打印输出没有元素 saveAsTextFile foreach（f）会对rdd中的每个函数进行f操作，下面的f操阅读全文

posted @ 2017-03-23 19:24 卖臭豆腐喽阅读(600) 评论(0) 推荐(0)

（二）spark算子分为3大类

摘要：transgormation的算子对key-value类型的数据有三种：（1）输入与输出为一对一关系 mapValue();针对key-value类型的数据并只对其中的value进行操作，不对key进行操作（2）对单个rdd聚集（2）对单个rdd聚集 combineByKey 相当于将(v 阅读全文

posted @ 2017-03-23 19:21 卖臭豆腐喽阅读(714) 评论(0) 推荐(0)

（一）spark算子分为3大类

摘要：value类型的算子处理数据类型为value型的算子（也就是这个算子只处理数据类型为value的数据），可以根据rdd的输入分区与输出分区的关系分为以下几个类型（1）输入分区与输出分区一对一型 map型：对rdd的每个数据项，通过用户自定义的函数映射转换成一个新的rdd 上面4个方框表示4个rd 阅读全文

posted @ 2017-03-23 19:18 卖臭豆腐喽阅读(2492) 评论(0) 推荐(0)

spark sql的简单操作

摘要：测试数据 sparkStu.text zhangxs 24 chenxy wangYr 21 teacher wangx 26 teacher sparksql { "name":"zhangxs","age":24,"job":"chengxy", "name":"li","age":21,"jo 阅读全文

posted @ 2017-03-06 23:29 卖臭豆腐喽阅读(11435) 评论(0) 推荐(0)

scala 编写wordCount

摘要：加载文件 scala> var f1=sc.textFile("/tmp/dataTest/followers.txt") scala> var f1=sc.textFile("/tmp/dataTest/followers.txt") scala> f1.flatMap(x=>x.split("- 阅读全文

posted @ 2017-03-06 23:23 卖臭豆腐喽阅读(5017) 评论(0) 推荐(0)

spark 的一些常用函数 filter，map，flatMap，lookup ，reduce，groupByKey

摘要：定义不带参数也不带返回值的函数（def :定义函数的关键字 printz:方法名称） scala> def printz = print("scala hello") 定义带参数也带返回值的函数（这种函数在定义时也可以不带返回值的类型，scala会自动推算出。建议还是带上） scala> def m 阅读全文

posted @ 2017-03-06 23:04 卖臭豆腐喽阅读(14854) 评论(1) 推荐(0)

解析spark RDD

摘要：RDD是spark抽象的基石，可以说整个spark编程就是对RDD进行的操作 RDD是弹性的分布式数据集，它是只读的，可分区的，这个数据集的全部或者部分数据可以缓存在内存中，在多次计算间重用。所谓的弹性意思是：内存不够时可以与磁盘进行交换。这是RDD另一个特性：内存计算。就是将数据保存到内存中，同时阅读全文

posted @ 2017-03-06 22:43 卖臭豆腐喽阅读(367) 评论(0) 推荐(0)

eclipse编写scala应用运行在spark集群上

摘要：代码输出结果阅读全文

posted @ 2017-03-06 22:36 卖臭豆腐喽阅读(585) 评论(0) 推荐(0)

spark-submit 提交任务

摘要：将工程打成jar 放入到linux中切换到[root@node4 Desktop]# cd /usr/local/development/spark-2.0-hadoop2.6/bin/ 输入命令打印出结果阅读全文

posted @ 2017-03-06 22:29 卖臭豆腐喽阅读(1233) 评论(0) 推荐(0)

spark standlone 伪分布式安装

摘要：一，在官网下载对应的版本http://spark.apache.org/downloads.html 二在linux中解压下来的spark包三：配置环境变量（1）在/etc/profile文件添加如下 export SPARK_HOME=/usr/local/development/spark- 阅读全文

posted @ 2016-12-26 14:44 卖臭豆腐喽阅读(687) 评论(0) 推荐(0)

薛定谔的猫！

随笔分类 - spark

公告