• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
呢喃的歌声
博客园 | 首页 | 新随笔 | 新文章 | 联系 | 订阅 订阅 | 管理
上一页 1 ··· 16 17 18 19 20 21 22 23 24 ··· 29 下一页

2016年7月27日

spark_updateStateByKey
摘要: java核心代码 JavaPairDStream<String, Integer> wordCounts = pair.updateStateByKey(new Function2<List<Integer>, Optional<Integer>, Optional<Integer>>() { @O 阅读全文
posted @ 2016-07-27 16:07 呢喃的歌声 阅读(253) 评论(0) 推荐(0)
 
spark Streaming的Receiver和Direct的优化对比
摘要: Direct 1、简化并行读取:如果要读取多个partition,不需要创建多个输入DStream然后对它们进行union操作。Spark会创建跟Kafka partition一样多的RDD partition,并且会并行从Kafka中读取数据。所以在Kafka partition和RDD part 阅读全文
posted @ 2016-07-27 11:14 呢喃的歌声 阅读(439) 评论(0) 推荐(0)
 
创建kafkatopic和productor
摘要: cd 到kafka 目录下 创建topic create topicbin/kafka-topics.sh --zookeeper spark1:2181,spark2:2181,spark3:2181 --topic WordCount --replication-factor 1 --parti 阅读全文
posted @ 2016-07-27 10:11 呢喃的歌声 阅读(469) 评论(0) 推荐(0)
 
 

2016年7月25日

输入DStream和Receiver详解
摘要: 输入DStream代表了来自数据源的输入数据流。在之前的wordcount例子中,lines就是一个输入DStream(JavaReceiverInputDStream),代表了从netcat(nc)服务接收到的数据流。除了文件数据流之外,所有的输入DStream都会绑定一个Receiver对象,该 阅读全文
posted @ 2016-07-25 14:46 呢喃的歌声 阅读(287) 评论(0) 推荐(0)
 
spark中streamingContext的使用详解
摘要: 两种创建方式 val conf = new SparkConf().setAppName(appName).setMaster(master);val ssc = new StreamingContext(conf, Seconds(1));//通过conf对象创建 val sc = new Spa 阅读全文
posted @ 2016-07-25 14:27 呢喃的歌声 阅读(1266) 评论(0) 推荐(0)
 
spark与storm的对比
摘要: 对比点 Storm Spark Streaming 实时计算模型 纯实时,来一条数据,处理一条数据 准实时,对一个时间段内的数据收集起来,作为一个RDD,再处理 实时计算延迟度 毫秒级 秒级 吞吐量 低 高 事务机制 支持完善 支持,但不够完善 健壮性 / 容错性 ZooKeeper,Acker,非 阅读全文
posted @ 2016-07-25 14:10 呢喃的歌声 阅读(50540) 评论(3) 推荐(4)
 
 

2016年7月22日

spark1.5引进内置函数
摘要: 在Spark 1.5.x版本,增加了一系列内置函数到DataFrame API中,并且实现了code-generation的优化。与普通的函数不同,DataFrame的函数并不会执行后立即返回一个结果值,而是返回一个Column对象,用于在并行作业中进行求值。Column可以用在DataFrame的 阅读全文
posted @ 2016-07-22 00:03 呢喃的歌声 阅读(355) 评论(0) 推荐(0)
 
 

2016年7月21日

spark 分析sql内容再插入到sql表中
摘要: package cn.spark.study.core.mycode_dataFrame; import java.sql.DriverManager;import java.util.ArrayList;import java.util.HashMap;import java.util.List; 阅读全文
posted @ 2016-07-21 16:12 呢喃的歌声 阅读(5496) 评论(0) 推荐(0)
 
 

2016年7月20日

spark之数据源之自动分区推断
摘要: 在hadoop上创建目录/spark-study/users/gender=male/country=US/users.parquet(并且把文件put上去) code: package cn.spark.study.core.mycode_dataFrame; import org.apache. 阅读全文
posted @ 2016-07-20 00:15 呢喃的歌声 阅读(603) 评论(0) 推荐(0)
 
 

2016年7月18日

spark-DataFrame之RDD和DataFrame之间的转换
摘要: package cn.spark.study.core.mycode_dataFrame; import java.io.Serializable;import java.util.List; import org.apache.spark.SparkConf;import org.apache.s 阅读全文
posted @ 2016-07-18 15:45 呢喃的歌声 阅读(8983) 评论(0) 推荐(0)
 
 
上一页 1 ··· 16 17 18 19 20 21 22 23 24 ··· 29 下一页

公告


博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3