04 2018 档案

摘要:1.Flume简介: Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data。 2.Fl 阅读全文
posted @ 2018-04-11 15:13 _fred
摘要:原文地址:http://blog.jobbole.com/102645/ 我们使用spark-submit提交一个Spark作业之后,这个作业就会启动一个对应的Driver进程。根据你使用的部署模式(deploy-mode)不同,Driver进程可能在本地启动,也可能在集群中某个工作节点上启动。Dr 阅读全文
posted @ 2018-04-04 11:33 _fred 阅读(555) 评论(0) 推荐(0)
摘要:1. 避免重复加载RDD 比如一份从HDFS中加载的数据 val rdd1 = sc.textFile("hdfs://url:port/test.txt"),这个test.txt只应该在你的程序中被加载一次,避免多次加载造成的性能开销。 2. 重复使用的RDD需要被缓存 Spark有数据持久化的几 阅读全文
posted @ 2018-04-04 11:11 _fred 阅读(1041) 评论(0) 推荐(0)
摘要:一.核心概念: Kafka是一个分布式消息中间件,以集群的方式运行,可以由多个服务组成,每个服务叫做一个broker Kafka中每条消息是由一个key,一个value和时间戳构成。 Kafka会对其数据分区,每个分区都由一系列有序的、不可变的消息组成,这些消息被连续的追加到分区中。每个消息都有一个 阅读全文
posted @ 2018-04-02 10:47 _fred 阅读(188) 评论(0) 推荐(0)