摘要: order by,sort by,distribute by和cluster by 1.order by : 全局排序,只有一个reduce 2.sort by; 局部排序,每一个reduce内部有序,但是全局结果不一定有序 3.distribute by: 相当于MapReduce中的partit 阅读全文
posted @ 2020-04-26 10:53 枫林晔雪 阅读(224) 评论(0) 推荐(0)
摘要: 1.updateStateByKey算子 updateStateByKey算子维护一个“状态”,可以将当前流处理的结果和过去流处理的结果进行“合并”。 一个WordCount的简单例子: 2.transform算子 transform算子可以用来对DStream和其他的DataSet(rdd)进行运 阅读全文
posted @ 2020-04-12 14:20 枫林晔雪 阅读(212) 评论(0) 推荐(0)
摘要: ​ 在使用SparkStreaming时不可避免的要将处理过后的的数据输出到外部数据源,如redis,mysql,hbase等数据库中。而连接这些外部数据源时需要一些连接对象(如jdbc连接mysql),因而在使用foreachRDD时常出现以下情况: 但是上述写入数据库的代码是错误的。因为它需要把 阅读全文
posted @ 2020-04-04 00:10 枫林晔雪 阅读(757) 评论(0) 推荐(0)
摘要: 一、概述 ​ Spark Streaming 是对Spark core API 的一个扩展,它能够实现对实时数据流的流式处理,并具有很好的可扩展性、高吞吐量和容错性。 ​ Spark Streaming支持多种数据输入和输出: 二、WordCont详解 上面的WordCount和spark core 阅读全文
posted @ 2020-04-01 14:35 枫林晔雪 阅读(211) 评论(0) 推荐(0)
摘要: 原因分析:在命令行上输入 jps查看,发现namenode存在而datanode不存在,打开datanode的log日志文件(日志在hadoop目录下的logs目录,有个名为hadoop-hadoop-datanode-ubuntu.log的文件(.log后缀的)),发现namenode的clust 阅读全文
posted @ 2019-01-23 14:14 枫林晔雪 阅读(1206) 评论(0) 推荐(0)