摘要: Spark Streaming使用Spark的简单编程模型提供了可扩展,容错,高效的处理流数据的方式。它将流数据转换为“微”批次,这使得Spark的批处理编程模型能够应用于Streaming用例。这种统一的编程模型使得批量和交互式数据处理与流媒体的结合变得容易。图10显示了Spark Streaming如何用于分析来自多个数据源的数据源。 阅读全文
posted @ 2017-07-28 19:00 全能程序猿 阅读(305) 评论(0) 推荐(0) 编辑
摘要: Spark SQL提供了一种方便的方法,使用Spark Engine使用名为SchemaRDD的特殊类型的RDD,在大型数据集上运行交互式查询。SchemaRDD可以从现有的RDD或其他外部数据格式(如Parquet文件,JSON数据)或通过在Hive上运行HQL创建。SchemaRDD与RDBMS中的表类似。一旦数据在SchemaRDD中,Spark引擎就会将其与批量和流式使用情况相统一。Spark SQL提供两种类型的上下文:扩展SparkContext功能的SQLContext和HiveContext。 阅读全文
posted @ 2017-07-28 18:59 全能程序猿 阅读(136) 评论(0) 推荐(0) 编辑
摘要: Spark提供了一种非常方便的方法,通过提供累加器来避免可变计数器和计数器同步问题。累加器在具有默认值的Spark上下文中初始化。这些累加器在从站节点上可用,但从站节点无法读取它们。他们唯一的目的是获取原子更新并将其转发给Master。Master是唯一可以读取和计算所有更新的聚合的程序。例如,假设我们想要在日志级别“错误”的日志文件中查找语句的数量... 阅读全文
posted @ 2017-07-28 18:59 全能程序猿 阅读(491) 评论(0) 推荐(0) 编辑
摘要: Apache Spark的主要功能之一就是在集群内存中持久/缓存RDD。这加速了迭代计算。 阅读全文
posted @ 2017-07-28 18:58 全能程序猿 阅读(252) 评论(0) 推荐(0) 编辑
摘要: apache spark的核心概念是弹性分布式数据集(RDD)。它是一个不可变的分布式数据集合,它在集群中的机器之间进行分区。它有助于两种类型的操作:转换和动作。转换是在RDD上产生另一个RDD的操作,如filter(),map()或union()。触发计算的Anactionisanoperationsuchascount(),first(),take(n)或collect()返回一个值返回给Master,或写入稳定的存储系统。转型被懒惰地评估,因为直到行动保证才能运行。Spark Master / Driver记住应用于RDD的转换,所以如果一个分区丢失(比如从机失效),该分区可以很容易地在集群中的其他机器上重构。这就是为什么叫“弹性”。 阅读全文
posted @ 2017-07-28 18:58 全能程序猿 阅读(598) 评论(0) 推荐(0) 编辑
摘要: Spark引擎提供了一种在一组机器上分布式内存中处理数据的方法。 阅读全文
posted @ 2017-07-28 18:57 全能程序猿 阅读(369) 评论(0) 推荐(0) 编辑
摘要: Hbase单机安装部署 阅读全文
posted @ 2017-07-28 10:48 全能程序猿 阅读(3758) 评论(0) 推荐(0) 编辑