JohnnyBai - 博客园

[置顶] Spark 源码分析系列

摘要：如下，是 spark 相关系列的一些文章汇总，持续更新中...... Spark RPC spark 源码分析之五--Spark RPC剖析之创建NettyRpcEnv spark 源码分析之六--Spark RPC剖析之Dispatcher和Inbox、Outbox剖析 spark 源码分析之七- 阅读全文

posted @ 2019-07-28 16:58 JohnnyBai 阅读(6072) 评论(0) 推荐(5)

2020年5月11日

ArrayList 源码分析

摘要：世上的事，只要肯用心去学，没有一件是太晚的。请你一定不要停下来，成为你想成为的人。前言在 "learn from collection framework design" 中提到，collection framework分为两部分，分别为和`Map Collection List Set Qu 阅读全文

posted @ 2020-05-11 23:53 JohnnyBai 阅读(564) 评论(0) 推荐(0)

2020年5月9日

learn from collection framework design

摘要：最难忍受的痛苦，也许是想干一件事情而又不去干。——罗曼·罗兰前言本篇文章算是拾人牙慧吧，偶尔谷歌到一个能很好把collection framework design讲好的文档，一是为了总结提升，也是collection framework 的开篇，从设计入手，更透彻的理解这个framework的阅读全文

posted @ 2020-05-09 23:17 JohnnyBai 阅读(499) 评论(0) 推荐(2)

2020年5月8日

JDK基本库概述

摘要：看脚下，不断行，莫存顺逆。剖析java的哪些源码目前主要是java基本库的一些源码的分析，jvm工具的使用等等，后续可能还会结合hotspot源码来分析jvm原理，当然，这是一个比较高级的主题，根据时间和进度来定。 jdk版本目前选定的是生产环境下使用最多的jdk1.8,具体版本号为 jdk1 阅读全文

posted @ 2020-05-08 20:22 JohnnyBai 阅读(706) 评论(0) 推荐(0)

2020年5月7日

常用序列化方案比较

摘要：当你感到悲哀痛苦时，最好是去学些什么东西。学习会使你永远立于不败之地。使用场景在rdd的每一个分区上，执行迭代操作，在每一次的迭代操作中，需要先访问redis缓存，并获取key对应的value，若value存在则对value进行反序列化操作，否则从db里查询并序列化存放到redis缓存中。伪代阅读全文

posted @ 2020-05-07 11:30 JohnnyBai 阅读(1927) 评论(3) 推荐(0)

大batch任务对structured streaming任务影响

摘要：信念，你拿它没办法，但是没有它你什么也做不成。—— 撒姆尔巴特勒前言对于spark streaming而言，大的batch任务会导致后续batch任务积压，对于structured streaming任务影响如何，本篇文章主要来做一下简单的说明。本篇文章的全称为设置trigger后，运行时间长阅读全文

posted @ 2020-05-07 01:02 JohnnyBai 阅读(1297) 评论(0) 推荐(0)

2020年4月24日

spark 集群优化

摘要：只有满怀自信的人，能在任何地方都怀有自信，沉浸在生活中，并认识自己的意志。前言最近公司有一个生产的小集群，专门用于运行spark作业。但是偶尔会因为nn或dn压力过大而导致作业checkpoint操作失败进而导致spark 流任务失败。本篇记录从应用层面对spark作业进行优化，进而达到优化集群阅读全文

posted @ 2020-04-24 21:46 JohnnyBai 阅读(2343) 评论(2) 推荐(1)

2020年4月10日

linux神器 strace解析

摘要：除了人格以外，人最大的损失，莫过于失掉自信心了。前言 strace可以说是神器一般的存在了，对于研究代码调用，内核级调用、系统级调用有非常重要的作用。打算了一周了，只有原文，一直没有梳理，拖延症犯了，今天加班把这个神器的官方翻译梳理一下。 linux 7 的 man的官方文档链接如下：http:/ 阅读全文

posted @ 2020-04-10 01:08 JohnnyBai 阅读(2503) 评论(1) 推荐(0)

2020年4月1日

打个 hadoop RPC的栗子

摘要：以豁达和宽容的心态对待学习和生活中遇到的不如意的事。需求通过RPC远程调用服务端函数来实现加法操作 maven 依赖依赖如下： <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifa 阅读全文

posted @ 2020-04-01 21:08 JohnnyBai 阅读(266) 评论(0) 推荐(0)

2020年3月26日

修改Apache Livy 源码使其支持动态资源分配和堆外内存分配

该文被密码保护。阅读全文

posted @ 2020-03-26 01:49 JohnnyBai 阅读(4) 评论(0) 推荐(0)

2020年2月29日

spark sql 之drop partition定制

该文被密码保护。阅读全文

posted @ 2020-02-29 14:54 JohnnyBai 阅读(23) 评论(0) 推荐(0)

求知

公告