会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
枫林晔雪
永远不要停止学习的脚步
博客园
首页
新随笔
联系
订阅
管理
2020年4月26日
hive 排序
摘要: order by,sort by,distribute by和cluster by 1.order by : 全局排序,只有一个reduce 2.sort by; 局部排序,每一个reduce内部有序,但是全局结果不一定有序 3.distribute by: 相当于MapReduce中的partit
阅读全文
posted @ 2020-04-26 10:53 枫林晔雪
阅读(224)
评论(0)
推荐(0)
2020年4月12日
Spark Streaming算子--updateStateByKey,transform
摘要: 1.updateStateByKey算子 updateStateByKey算子维护一个“状态”,可以将当前流处理的结果和过去流处理的结果进行“合并”。 一个WordCount的简单例子: 2.transform算子 transform算子可以用来对DStream和其他的DataSet(rdd)进行运
阅读全文
posted @ 2020-04-12 14:20 枫林晔雪
阅读(212)
评论(0)
推荐(0)
2020年4月4日
SparkStreaming 输出算子--foreachRDD
摘要: 在使用SparkStreaming时不可避免的要将处理过后的的数据输出到外部数据源,如redis,mysql,hbase等数据库中。而连接这些外部数据源时需要一些连接对象(如jdbc连接mysql),因而在使用foreachRDD时常出现以下情况: 但是上述写入数据库的代码是错误的。因为它需要把
阅读全文
posted @ 2020-04-04 00:10 枫林晔雪
阅读(757)
评论(0)
推荐(0)
2020年4月1日
从WordCount入门Spark Streaming
摘要: 一、概述 Spark Streaming 是对Spark core API 的一个扩展,它能够实现对实时数据流的流式处理,并具有很好的可扩展性、高吞吐量和容错性。 Spark Streaming支持多种数据输入和输出: 二、WordCont详解 上面的WordCount和spark core
阅读全文
posted @ 2020-04-01 14:35 枫林晔雪
阅读(211)
评论(0)
推荐(0)
2019年1月23日
启动hadoop中的HDFS集群,datanode启动失败原因分析及解决方法
摘要: 原因分析:在命令行上输入 jps查看,发现namenode存在而datanode不存在,打开datanode的log日志文件(日志在hadoop目录下的logs目录,有个名为hadoop-hadoop-datanode-ubuntu.log的文件(.log后缀的)),发现namenode的clust
阅读全文
posted @ 2019-01-23 14:14 枫林晔雪
阅读(1206)
评论(0)
推荐(0)
公告