| | | | |

2016年7月27日

摘要： java核心代码 JavaPairDStream<String, Integer> wordCounts = pair.updateStateByKey(new Function2<List<Integer>, Optional<Integer>, Optional<Integer>>() { @O 阅读全文

posted @ 2016-07-27 16:07 呢喃的歌声阅读(253) 评论(0) 推荐(0)

spark Streaming的Receiver和Direct的优化对比

摘要： Direct 1、简化并行读取：如果要读取多个partition，不需要创建多个输入DStream然后对它们进行union操作。Spark会创建跟Kafka partition一样多的RDD partition，并且会并行从Kafka中读取数据。所以在Kafka partition和RDD part 阅读全文

posted @ 2016-07-27 11:14 呢喃的歌声阅读(439) 评论(0) 推荐(0)

创建kafkatopic和productor

摘要： cd 到kafka 目录下创建topic create topicbin/kafka-topics.sh --zookeeper spark1:2181,spark2:2181,spark3:2181 --topic WordCount --replication-factor 1 --parti 阅读全文

posted @ 2016-07-27 10:11 呢喃的歌声阅读(469) 评论(0) 推荐(0)

2016年7月25日

输入DStream和Receiver详解

摘要：输入DStream代表了来自数据源的输入数据流。在之前的wordcount例子中，lines就是一个输入DStream（JavaReceiverInputDStream），代表了从netcat（nc）服务接收到的数据流。除了文件数据流之外，所有的输入DStream都会绑定一个Receiver对象，该阅读全文

posted @ 2016-07-25 14:46 呢喃的歌声阅读(287) 评论(0) 推荐(0)

spark中streamingContext的使用详解

摘要：两种创建方式 val conf = new SparkConf().setAppName(appName).setMaster(master);val ssc = new StreamingContext(conf, Seconds(1));//通过conf对象创建 val sc = new Spa 阅读全文

posted @ 2016-07-25 14:27 呢喃的歌声阅读(1266) 评论(0) 推荐(0)

spark与storm的对比

摘要：对比点 Storm Spark Streaming 实时计算模型纯实时，来一条数据，处理一条数据准实时，对一个时间段内的数据收集起来，作为一个RDD，再处理实时计算延迟度毫秒级秒级吞吐量低高事务机制支持完善支持，但不够完善健壮性 / 容错性 ZooKeeper，Acker，非阅读全文

posted @ 2016-07-25 14:10 呢喃的歌声阅读(50540) 评论(3) 推荐(4)

2016年7月22日

spark1.5引进内置函数

摘要：在Spark 1.5.x版本，增加了一系列内置函数到DataFrame API中，并且实现了code-generation的优化。与普通的函数不同，DataFrame的函数并不会执行后立即返回一个结果值，而是返回一个Column对象，用于在并行作业中进行求值。Column可以用在DataFrame的阅读全文

posted @ 2016-07-22 00:03 呢喃的歌声阅读(355) 评论(0) 推荐(0)

2016年7月21日

spark 分析sql内容再插入到sql表中

摘要： package cn.spark.study.core.mycode_dataFrame; import java.sql.DriverManager;import java.util.ArrayList;import java.util.HashMap;import java.util.List; 阅读全文

posted @ 2016-07-21 16:12 呢喃的歌声阅读(5496) 评论(0) 推荐(0)

2016年7月20日

spark之数据源之自动分区推断

摘要：在hadoop上创建目录/spark-study/users/gender=male/country=US/users.parquet（并且把文件put上去） code： package cn.spark.study.core.mycode_dataFrame; import org.apache. 阅读全文

posted @ 2016-07-20 00:15 呢喃的歌声阅读(603) 评论(0) 推荐(0)

2016年7月18日

spark-DataFrame之RDD和DataFrame之间的转换

摘要： package cn.spark.study.core.mycode_dataFrame; import java.io.Serializable;import java.util.List; import org.apache.spark.SparkConf;import org.apache.s 阅读全文

posted @ 2016-07-18 15:45 呢喃的歌声阅读(8983) 评论(0) 推荐(0)