摘要: SparkStreaming中foreachRDD SparkStreaming是流式实时处理数据,就是将数据流按照定义的时间进行分割(就是“批处理”)。每一个时间段内处理的都是一个RDD。而SparkStreaming中的foreachRDD方法就是在处理每一个时间段内的RDD数据。 DStrea 阅读全文
posted @ 2020-01-09 16:54 ~清风煮酒~ 阅读(120) 评论(0) 推荐(0) 编辑
摘要: Spark 读写HBase优化 读数据 可以采用RDD的方式读取HBase数据: val conf = HBaseConfiguration.create() conf.set(TableInputFormat.INPUT_TABLE, hTabName) //设置查询的表名 val rdd = s 阅读全文
posted @ 2020-01-09 16:36 ~清风煮酒~ 阅读(170) 评论(0) 推荐(0) 编辑
摘要: 参考:jianshu.com/p/9d2d225c1951 监听socket获取数据,代码如下:这里使用nc -lk 9999 在ip为10.121.33.44的机器上发送消息 object SocketStream { def main(args: Array[String]): Unit = { 阅读全文
posted @ 2020-01-09 16:23 ~清风煮酒~ 阅读(165) 评论(0) 推荐(0) 编辑
摘要: /** * scala模型的main(args:Array[String])是业务执行入口 * org.apache.spark.{SparkConf, SparkContext} * val sparkConf =new SparkConf().setAppName(appName) * val 阅读全文
posted @ 2020-01-09 15:52 ~清风煮酒~ 阅读(192) 评论(0) 推荐(0) 编辑