枫林晔雪

2020年4月26日

摘要： order by，sort by，distribute by和cluster by 1.order by ：全局排序，只有一个reduce 2.sort by；局部排序，每一个reduce内部有序，但是全局结果不一定有序 3.distribute by：相当于MapReduce中的partit 阅读全文

posted @ 2020-04-26 10:53 枫林晔雪阅读(224) 评论(0) 推荐(0)

2020年4月12日

Spark Streaming算子--updateStateByKey，transform

摘要： 1.updateStateByKey算子 updateStateByKey算子维护一个“状态”，可以将当前流处理的结果和过去流处理的结果进行“合并”。一个WordCount的简单例子： 2.transform算子 transform算子可以用来对DStream和其他的DataSet（rdd）进行运阅读全文

posted @ 2020-04-12 14:20 枫林晔雪阅读(212) 评论(0) 推荐(0)

2020年4月4日

SparkStreaming 输出算子--foreachRDD

摘要：在使用SparkStreaming时不可避免的要将处理过后的的数据输出到外部数据源，如redis，mysql，hbase等数据库中。而连接这些外部数据源时需要一些连接对象（如jdbc连接mysql），因而在使用foreachRDD时常出现以下情况：但是上述写入数据库的代码是错误的。因为它需要把阅读全文

posted @ 2020-04-04 00:10 枫林晔雪阅读(757) 评论(0) 推荐(0)

2020年4月1日

从WordCount入门Spark Streaming

摘要：一、概述 Spark Streaming 是对Spark core API 的一个扩展，它能够实现对实时数据流的流式处理，并具有很好的可扩展性、高吞吐量和容错性。 Spark Streaming支持多种数据输入和输出：二、WordCont详解上面的WordCount和spark core 阅读全文

posted @ 2020-04-01 14:35 枫林晔雪阅读(211) 评论(0) 推荐(0)

2019年1月23日

启动hadoop中的HDFS集群，datanode启动失败原因分析及解决方法

摘要：原因分析：在命令行上输入 jps查看，发现namenode存在而datanode不存在，打开datanode的log日志文件（日志在hadoop目录下的logs目录，有个名为hadoop-hadoop-datanode-ubuntu.log的文件（.log后缀的）），发现namenode的clust 阅读全文

posted @ 2019-01-23 14:14 枫林晔雪阅读(1206) 评论(0) 推荐(0)

永远不要停止学习的脚步

公告