chouc

DStream-01 DStream的原理和源码

摘要： Demo Spark 源码分析 StreamingContext 整个Dstream 类似RDD "懒加载" ，出发点就是 streamingContext.start()。为了方便查看，我去掉了一些其他代码，只保留关键逻辑代码 JobScheduler 点开 scheduler.start() 阅读全文

posted @ 2020-02-21 16:39 chouc 阅读(346) 评论(0) 推荐(0)

Spark两种内存管理

摘要： Spark动态内存管理 Spark 1.6 后改为动态内存管理（如果想启用静态内存管理，方法下面会介绍），启动动态主要体现在存储内存和执行内存的动态。动态内存管理内存中分为两大块和预留内存用于用户数据结构和spark 元数据的内存，默认占用整个内存的０.４用于执行task 和数据存储的内阅读全文

posted @ 2019-12-21 15:59 chouc 阅读(592) 评论(0) 推荐(0)

HDFS

摘要：存储模型：字节文件线性切割成块（Block）:偏移量 offset （byte） Block分散存储在集群节点中单一文件Block大小一致，文件与文件可以不一致 Block可以设置副本数，副本分散在不同节点中副本数不要超过节点数量文件上传可以设置Block大小和副本数已上传的文件Bloc 阅读全文

posted @ 2019-11-19 18:50 chouc 阅读(185) 评论(0) 推荐(0)

Hbase

摘要：简介 Hbase Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库 Hbase Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapRedu 阅读全文

posted @ 2019-11-19 18:48 chouc 阅读(177) 评论(0) 推荐(0)

Clickhouse 性能瓶颈排查 IO过高

摘要：前几天公司clickhouse 有个查询很慢。经理一直追问为什么慢是cpu 不够还是IO 占用太高，还是其他的原因。于是有了以下的排查执行该条，在不考虑优化sql 的情况下进行性能排查 1、首先便是万能的 top第三行CPU信息统计数据： %Cpu(s): 0.3 us, 0.2 sy, 0 阅读全文

posted @ 2019-08-10 12:01 chouc 阅读(14608) 评论(0) 推荐(0)

Spark-源码分析03-SubmitTask

摘要： 1.Rdd rdd中 reduce、fold、aggregate、collect、count这些方法都会调用 sparkContext.runJob ，这些方法称之为Action 触发提交Job def reduce(f: (T, T) => T): T = withScope { val cle 阅读全文

posted @ 2019-08-06 22:45 chouc 阅读(431) 评论(0) 推荐(0)

Spark-源码分析02-Luanch Executor

摘要： 1.SparkContext.scala sparkcontext 在被new的时候，会执行class中的代码其中有一个就是创建TaskScheduler 和 SchedulerBackend，而SchedulerBackend 就是driver 和外界通信的，我理解SchedulerBacke 阅读全文

posted @ 2019-08-06 17:09 chouc 阅读(319) 评论(0) 推荐(0)

Guava com.google.common.base.Stopwatch Spark程序在yarn中 MethodNotFound

摘要：今天在公司提交一个Spark 读取hive中的数据，写入JanusGraph 的app，自己本地调试没有问题，放入环境中提交到yarn 中时，发现app 跑不起。 yarn 中日志，也比较明显，app引用到 janusGraph 中的 StandardIDPool 找不到StopWatch.clas 阅读全文

posted @ 2019-06-01 15:37 chouc 阅读(1370) 评论(0) 推荐(0)

Spark-源码分析01-Luanch Driver

摘要： 1.SparkSubmit.scala 什么是Driver 呢？其实application运行的进程就是driver，也是我们所写的代码就是Driver。 object DefaultPartitionsNum { def main(args: Array[String]): Unit = { v 阅读全文

posted @ 2019-05-18 14:37 chouc 阅读(257) 评论(0) 推荐(0)

Hive安装

摘要：一、简介 HIVE 是一个数据仓库，说白了就是把一些数据结构化的文件，映射成一张表，并且提供sql 接口去查询对应的数据。简单的查询不会经过mapreduce，涉及到排序之类，会生成一个hadoop 中的一个map reduce任务去执行。海量的数据文件都输存放在hdfs 中，所以hive 依赖于h 阅读全文

posted @ 2018-10-08 18:23 chouc 阅读(149) 评论(0) 推荐(0)