2019 年 3月随笔档案 - kpsmile

摘要：linux脚本为： Java代码为：阅读全文

posted @ 2019-03-07 16:11 kpsmile 阅读(1143) 评论(0) 推荐(0)

spark记录（19）SparkStreaming之从kafkaBroker和zookeeper获取offset，和使用zookeeper管理offset

摘要：一、从kafkaBroker获取offset 二、从zookeeper获取offset 三、使用zookeeper管理offset 阅读全文

posted @ 2019-03-07 16:06 kpsmile 阅读(1180) 评论(1) 推荐(0)

spark记录（18）SparkStreaming+kafka receiver和directed模式

摘要：一、receiver模式 1 、receiver模式原理图 2 receiver模式理解：在SparkStreaming程序运行起来后，Executor中会有receiver tasks接收kafka推送过来的数据。数据会被持久化，默认级别为MEMORY_AND_DISK_SER_2,这个级别也可阅读全文

posted @ 2019-03-06 17:17 kpsmile 阅读(345) 评论(0) 推荐(0)

spark记录（17）SparkStreaming checkpoint那些事儿

摘要：spark Streaming的checkpoint是一个利器，帮助在driver端非代码逻辑错误导致的driver应用失败重启，比如网络，jvm等，当然也仅限于支持自动重启的集群管理器，比如yarn。由于checkpoint信息包含序列化的Scala / Java / Python对象，尝试使用新阅读全文

posted @ 2019-03-06 17:00 kpsmile 阅读(739) 评论(0) 推荐(0)

spark记录（16）SparkStreaming On HDFS AND TO MySQL

摘要：本测试使用本地文件系统代替HDFS，如需测试HDFS监控请解开注释换成自己的HDFS集群 sparkstreaming只会监控该文件夹下新增的文件，并不会监控到原文件的删除和修改 SparkStreaming On HDFS 代码 1：监控文件夹下新增加的数据并打印到控制台上代码 2：该代码源源不阅读全文

posted @ 2019-03-06 16:41 kpsmile 阅读(488) 评论(0) 推荐(0)

kafka记录（4）Kafka在zookeeper中的存储

摘要：摘自：https://www.cnblogs.com/qingyunzong/p/9007107.html，部分做修改一、Kafka在zookeeper中存储结构图二、分析 2.1　topic注册信息 /brokers/topics/[topic] : 存储某个topic的partitions所阅读全文

posted @ 2019-03-05 22:50 kpsmile 阅读(1307) 评论(0) 推荐(0)

kafka记录（3）Kafka高可用

摘要：摘自：https://www.cnblogs.com/qingyunzong/p/9004703.html 一、高可用的由来 1.1　为何需要Replication 在Kafka在0.8以前的版本中，是没有Replication的，一旦某一个Broker宕机，则其上所有的Partition数据都不可阅读全文

posted @ 2019-03-05 22:38 kpsmile 阅读(372) 评论(0) 推荐(0)

kafka记录（2）Kafka集群搭建

摘要：一解压配置 1 上传解压缩 2 修改配置文件进入kafka的安装配置目录主要关注：server.properties 这个文件即可，我们可以发现在目录下：有很多文件，这里可以发现有Zookeeper文件，我们可以根据Kafka内带的zk集群来启动，但是建议使用独立的zk集群 server. 阅读全文

posted @ 2019-03-05 20:30 kpsmile 阅读(245) 评论(0) 推荐(0)

kafka记录（1）Kafka的架构

摘要：一、Kafka的架构如上图所示，一个典型的Kafka集群中包含若干Producer（可以是web前端产生的Page View，或者是服务器日志，系统CPU、Memory等），若干broker（Kafka支持水平扩展，一般broker数量越多，集群吞吐率越高），若干Consumer Group，以及阅读全文

posted @ 2019-03-05 20:18 kpsmile 阅读(236) 评论(0) 推荐(0)

kafka记录（0）kafka初始

摘要：转自：https://www.cnblogs.com/qingyunzong/p/9004509.html 一、简介 1.1　概述 Kafka是最初由Linkedin公司开发，是一个分布式、分区的、多副本的、多订阅者，基于zookeeper协调的分布式日志系统（也可以当做MQ系统），常见可以用于we 阅读全文

posted @ 2019-03-05 19:40 kpsmile 阅读(399) 评论(0) 推荐(0)

spark记录（15）SparkStreaming算子操作

摘要：1 foreachRDD output operation算子,必须对抽取出来的RDD执行action类算子，代码才能执行。代码：见上个随笔例子 2 transform transformation类算子可以通过transform算子，对Dstream做RDD到RDD的任意操作。代码： 3 u 阅读全文

posted @ 2019-03-05 11:23 kpsmile 阅读(1078) 评论(0) 推荐(0)

spark记录（14）SparkStreaming

摘要：1、SparkCore、SparkSQL和SparkStreaming的类似之处 2 SparkStreaming简介 SparkStreaming是流式处理框架，是Spark API的扩展，支持可扩展、高吞吐量、容错的实时数据流处理，实时数据的来源可以是：Kafka, Flume, Twitter 阅读全文

posted @ 2019-03-04 19:42 kpsmile 阅读(290) 评论(0) 推荐(0)

spark记录（13）SparkSQL

摘要：1.Shark Shark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎，由于底层的计算采用了Spark，性能比MapReduce的Hive普遍快2倍以上，当数据全部load在内存的话，将快10倍以上，因此Shark可以作为交互式查询应用服务来使用。除了基于Spark的特性外，Sha 阅读全文

posted @ 2019-03-03 18:34 kpsmile 阅读(530) 评论(0) 推荐(1)

spark记录（12）SparkCore的调优之资源调优JVM的GC垃圾收集器

摘要：摘自：https://www.cnblogs.com/qingyunzong/p/8973857.html 一、概述垃圾收集 Garbage Collection 通常被称为“GC”，它诞生于1960年 MIT 的 Lisp 语言，经过半个多世纪，目前已经十分成熟了。 jvm 中，程序计数器、虚拟阅读全文

posted @ 2019-03-03 16:02 kpsmile 阅读(269) 评论(0) 推荐(0)

spark记录（11）SparkCore的调优之资源调优JVM的基本架构

摘要：摘自:https://www.cnblogs.com/qingyunzong/p/8973748.html 一、JVM的结构图 1.1　Java内存结构 JVM内存结构主要有三大块：堆内存、方法区和栈。堆内存是JVM中最大的一块由年轻代和老年代组成，而年轻代内存又被分成三部分，Eden空间、Fro 阅读全文

posted @ 2019-03-03 15:55 kpsmile 阅读(149) 评论(0) 推荐(0)

spark记录（10）SparkCore的调优之资源调优

摘要：摘抄自：https://www.cnblogs.com/qingyunzong/p/8973707.html 一、概述在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要阅读全文

posted @ 2019-03-03 15:52 kpsmile 阅读(221) 评论(0) 推荐(0)

spark记录（9）SparkCore的调优之Spark内存模型

摘要：摘抄自：https://www.cnblogs.com/qingyunzong/p/8946637.html 一、概述 Spark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理，有助于更好地开发 Spark 应用程序和进行性能阅读全文

posted @ 2019-03-03 15:49 kpsmile 阅读(396) 评论(0) 推荐(0)

spark记录（8）SparkCore的调优之Shuffle调优

摘要：摘抄自：https://www.cnblogs.com/qingyunzong/p/8946637.html 一、概述大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此，如果要让作业的性能更上一层楼，就有必要对shuffl 阅读全文

posted @ 2019-03-03 15:42 kpsmile 阅读(178) 评论(0) 推荐(0)

spark记录（7）SparkCore的调优之数据倾斜调优

摘要：摘抄自：https://www.cnblogs.com/qingyunzong/p/8946637.html 数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题阅读全文

posted @ 2019-03-03 15:39 kpsmile 阅读(216) 评论(0) 推荐(0)

spark记录（6）SparkCore的调优之开发调优

摘要：摘抄自：https://www.cnblogs.com/qingyunzong/p/8946637.html 前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型阅读全文

posted @ 2019-03-03 15:35 kpsmile 阅读(271) 评论(0) 推荐(0)

spark记录（5）Spark运行流程及在不同集群中的运行过程

摘要：摘自：https://www.cnblogs.com/qingyunzong/p/8945933.html 一、Spark中的基本概念（1）Application：表示你的应用程序（2）Driver：表示main()函数，创建SparkContext。由SparkContext负责与Cluste 阅读全文

posted @ 2019-03-03 15:19 kpsmile 阅读(844) 评论(0) 推荐(0)

kpsmile

Update...

03 2019 档案

公告