yuerspring

摘要： Spark Streaming 模块是对于 Spark Core 的一个扩展，目的是为了以高吞吐量，并且容错的方式处理持续性的数据流。目前 Spark Streaming 支持的外部数据源有 Flume、 Kafka、Twitter、ZeroMQ、TCP Socket... 阅读全文

posted @ 2016-10-10 12:51 yuerspring 阅读(144) 评论(0) 推荐(0)

摘要： Spark Streaming 模块是对于 Spark Core 的一个扩展，目的是为了以高吞吐量，并且容错的方式处理持续性的数据流。目前 Spark Streaming 支持的外部数据源有 Flume、 Kafka、Twitter、ZeroMQ、TCP Socket... 阅读全文

posted @ 2016-10-10 12:51 yuerspring 阅读(109) 评论(0) 推荐(0)

摘要： Kafka 是一个分布式的，高吞吐量，易于扩展地基于主题发布/订阅的消息系统，最早是由 Linkedin 开发，并于 2011 年开源并贡献给 Apache 软件基金会。一般来说，Kafka 有以下几个典型的应用场景: 作为消息队列。由于 Kafka 拥有高吞吐... 阅读全文

posted @ 2016-10-10 12:49 yuerspring 阅读(139) 评论(0) 推荐(0)

摘要： Spark 应用程序在提交执行后，控制台会打印很多日志信息，这些信息看起来是杂乱无章的，但是却在一定程度上体现了一个被提交的 Spark job 在集群中是如何被调度执行的，这里将会向大家介绍一个典型的 Spark job 是如何被调度执行的。我们先来了解以下几个概念... 阅读全文

posted @ 2016-10-10 12:39 yuerspring 阅读(404) 评论(0) 推荐(0)

摘要： SparkWordCount 类源码 standalong 模式import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.SparkCont... 阅读全文

posted @ 2016-10-10 12:38 yuerspring 阅读(297) 评论(0) 推荐(0)

摘要：本节内容简单介绍怎么在集群上运行spark 应用程序 1.spark 运行时架构在集群模式下，spark 是采用的主从结构，一个中央协调节点被称为驱动器driver ，多个工作节点被成为执行器 executor 。分别对应多个java 进程，，driver & e... 阅读全文

posted @ 2016-10-08 11:21 yuerspring 阅读(300) 评论(0) 推荐(0)

摘要：本文内容来自（Spark高级数据分析）阅读全文

posted @ 2016-09-26 21:04 yuerspring 阅读(304) 评论(0) 推荐(0)

摘要：勾勒一幅图阅读全文

posted @ 2016-09-24 21:40 yuerspring 阅读(284) 评论(0) 推荐(0)

摘要： Mysql 的读写分离与 DB2 中不同数据库（同库中的不同表也可以使用replication）的replication 是异曲同工db2 示例 ODS -----> DWDW table 1 ------> DW table2Mysql 主从复制的几种方案从数... 阅读全文

posted @ 2016-09-24 21:31 yuerspring 阅读(160) 评论(0) 推荐(0)

摘要：有两个概念需要弄清楚：1 ROC2 AUCpackage org.apache.spark.mllib.classificationimport org.apache.log4j.Loggerimport org.apache.log4j.Levelimport or... 阅读全文

posted @ 2016-09-24 20:17 yuerspring 阅读(1147) 评论(0) 推荐(0)