2018 年 4月随笔档案 - _fred

Flume概览

摘要：1.Flume简介： Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data。 2.Fl 阅读全文

posted @ 2018-04-11 15:13 _fred

Spark执行流程（转）

摘要：原文地址：http://blog.jobbole.com/102645/ 我们使用spark-submit提交一个Spark作业之后，这个作业就会启动一个对应的Driver进程。根据你使用的部署模式（deploy-mode）不同，Driver进程可能在本地启动，也可能在集群中某个工作节点上启动。Dr 阅读全文

posted @ 2018-04-04 11:33 _fred 阅读(555) 评论(0) 推荐(0)

Spark性能优化总结

摘要：1. 避免重复加载RDD 比如一份从HDFS中加载的数据 val rdd1 = sc.textFile("hdfs://url:port/test.txt")，这个test.txt只应该在你的程序中被加载一次，避免多次加载造成的性能开销。 2. 重复使用的RDD需要被缓存 Spark有数据持久化的几阅读全文

posted @ 2018-04-04 11:11 _fred 阅读(1041) 评论(0) 推荐(0)

Kafka学习笔记

摘要：一.核心概念： Kafka是一个分布式消息中间件，以集群的方式运行，可以由多个服务组成，每个服务叫做一个broker Kafka中每条消息是由一个key，一个value和时间戳构成。 Kafka会对其数据分区，每个分区都由一系列有序的、不可变的消息组成，这些消息被连续的追加到分区中。每个消息都有一个阅读全文

posted @ 2018-04-02 10:47 _fred 阅读(188) 评论(0) 推荐(0)

_fred

04 2018 档案

公告