摘要: 架构图 yarn-cluster yarn-client 区别 Yarn-cluster spark的driver运行在applicationMaster内,启动流程为: 这张图可能比较直观 Yarn-client Spark client向yarn的RM申请资源容器,得到AM,但是这个AM运行在其 阅读全文
posted @ 2017-10-10 08:41 ulysses_you 阅读(351) 评论(0) 推荐(0) 编辑
摘要: 前言 通过spark获取hbase数据的过程中,遇到了InputFormat。文章主要围绕InputFormat介绍。会牵扯到spark,mapreduce,hbase相关内容 InputFormat InputFormat是mapreduce提供的数据源格式接口,也就是说,通过该接口可以支持读取各 阅读全文
posted @ 2017-09-28 17:34 ulysses_you 阅读(2960) 评论(0) 推荐(1) 编辑
摘要: 前言 文章不含源码,只是一些官方资料的整理和个人理解 架构总览 这张图在大街小巷里都能看到,感觉是hbase架构中最详细最清晰的一张,稍微再补充几点。 1) Hlog是低版本hbase术语,现在称为WALs。 2) 1个region包含了多个store,1个store包含了1个colum famil 阅读全文
posted @ 2017-09-28 10:53 ulysses_you 阅读(840) 评论(0) 推荐(0) 编辑
摘要: 写在前面 众所周知,scala一向宣称自己是面向函数的编程,(java表示不服,我是面向bean的编程!)那什么是函数? 在接触java的时候,有时候用函数来称呼某个method(实在找不出词了),有时候用方法来称呼某个method,虽然method的中文翻译就是“方法”,但对于java来说,方法和 阅读全文
posted @ 2017-09-19 12:17 ulysses_you 阅读(5176) 评论(0) 推荐(3) 编辑
摘要: 优化思路 内存优化 内存优化大概分为三个方向 1.所有对象的总内存(包括数据和java对象) 2.访问这些对象的开销 3.垃圾回收的开销 其中Java的原生对象往往都能被很快的访问,但是会多占据2-5倍或更多的内存,有下面4点原因 ·每个单独的java对象都有一个对象头(16字节),其中包括指向对象 阅读全文
posted @ 2017-09-01 18:56 ulysses_you 阅读(928) 评论(0) 推荐(0) 编辑
摘要: 前言 为了保证tuple的强有序和exactly-once语义,storm提供了事务机制,为每个tuple提供一个id 设计方法1 为每个tuple设置一个事务id,在数据库保存事务id和当前处理的id做比较。 1.两个id不一样,由于事务的强有序特点,判断出该tuple没有出现过,所以更新id 2 阅读全文
posted @ 2017-08-26 19:50 ulysses_you 阅读(390) 评论(0) 推荐(0) 编辑
摘要: Watermark作用 在解释storm的window之前先说明一下watermark原理。 Watermark中文翻译为水位线更为恰当。 顺序的数据从源头开始发送到到操作,中间过程肯定会出现数据乱序情况,比如网络原因,数据并发发送等。如何区分乱序的数据和正常的数据,就引申出了watermark。 阅读全文
posted @ 2017-08-14 20:06 ulysses_you 阅读(2362) 评论(0) 推荐(0) 编辑
摘要: 特性 1.延迟和失败容忍 防止级联错误,错误回退,优雅降级。快速失败和恢复 线程和信号量隔离 2.实时监控和配置更改 3.并发 并行执行,请求缓存,自动批处理失败请求 总运行流程 当你发出请求后,hystrix是这么运行的 详细解释个步骤 1. Construct a HystrixCommand 阅读全文
posted @ 2017-08-03 20:10 ulysses_you 阅读(5119) 评论(0) 推荐(0) 编辑
摘要: 总通信流程图 上图表明了tcp三次握手,四次挥手通信流程 一般来说,我们希望看到的状态只有ESTABLISHED,其它状态都是问题状态的,但是我们通过命令netstat –alt 能看到其它状态,常见的有CLOSE_WAIT,TIME_WAIT。下面就来说说为什么会看到这些问题状态,以及解决方法。 阅读全文
posted @ 2017-08-01 08:34 ulysses_you 阅读(480) 评论(0) 推荐(1) 编辑
摘要: Eureka概述 一个简单的服务注册,服务发现架构 在CAP理论中,eureka选择了ap,作为注册中心,数据可用比数据不一致更重要 逻辑架构图 Eureka特性 1.当注册中心挂了,客户端之间依然可以通过原有的注册表进行调用;注册中心重启后,客户端会继续注册进来 2.当服务提供者挂了,在关闭自我保 阅读全文
posted @ 2017-07-18 19:46 ulysses_you 阅读(2721) 评论(0) 推荐(2) 编辑