大数据调度系统学习

摘要: 概述 为什么需要一个复杂的工作量调度器? 1、一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、 hive脚本等 2、各任务单元之间存在时间先后及前后依赖关系 3、为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行 Apac 阅读全文
posted @ 2021-11-10 15:43 踏雪扬尘-wx 阅读(666) 评论(0) 推荐(0)

Ranger安装使用

摘要: 集成外部组件 集成各种插件就是通过 AgentPlugin , 这样当请求到达对应的服务时,会进行拦截,权限有问题直接退回。 集成外部组件就需要用到 Ranger 的一个核心组件 AgentPlugin,即通过安装插件的方式去集成, Ambari 替我们安装好了插件,只需要启用插件即可。 集成分两种 阅读全文
posted @ 2021-11-10 12:10 踏雪扬尘-wx 阅读(357) 评论(0) 推荐(0)

Ranger学习

摘要: 各种安全组件对比 常见大数据权限方案: 1、Kerberos(开源常用方案,业界比较常用的方案) 2、Apache Sentry(Cloudera 选用的方案,CDH 版本中集成,CDP 中已经换成了Ranger) 3、Apache Ranger(Hortonworks 选用的方案,HDP 发行版中 阅读全文
posted @ 2021-11-10 11:46 踏雪扬尘-wx 阅读(543) 评论(0) 推荐(0)

Atlas 元数据管理学习

摘要: 概述 Apache Atlas 是 Hadoop 社区为解决 Hadoop 生态系统的元数据治理问题而产生的开源项目,它为 Hadoop 集群提供了包括 数据分类、集中策略引擎、数据血缘、安全和生命周期管理 在内的元数据治 理核心能力。 1、Atlas 支持各种 Hadoop 和非 Hadoop 元 阅读全文
posted @ 2021-11-10 00:37 踏雪扬尘-wx 阅读(556) 评论(0) 推荐(0)

数据中台技术体系

摘要: 前缀 常用数据收集和迁移: flume,canal,sqoop,datax,waterdrop等 常用任务调度: azkaban,oozie,dophinscheduler,airflow 常用部署运维: cloudera manager, ambari,SaltStack等 常用监控告警: Ale 阅读全文
posted @ 2021-11-09 17:37 踏雪扬尘-wx 阅读(2413) 评论(0) 推荐(1)

RocketMQ 学习相关

摘要: RocketMQ vs. ActiveMQ vs. Kafka Messaging Product Client SDK Protocol and Specification Ordered Message Scheduled Message Batched Message BroadCast Me 阅读全文
posted @ 2021-11-05 15:55 踏雪扬尘-wx 阅读(159) 评论(0) 推荐(0)

QueryWrapper、UpdateWrapper和LambdaWrapper

摘要: 前提 目前 mybatis 基本不直接使用, 而是使用 baomidou 进行增强,这个框架的背景图就是 红斗罗好基友的照片。简直就是mybatis 的孪生栾弟。 基本使用步骤如下: 通过 baomidou 自带的 CodeGenerator 生成器生成对应表的 dao 、do、service、ac 阅读全文
posted @ 2021-11-04 21:03 踏雪扬尘-wx 阅读(4488) 评论(0) 推荐(0)

分布式事务解决方案

摘要: 概述 单机事务依赖于关系型数据库非常容易就实现保证了,但是现在系统基本都是分布式的,RPC 调用等,需要保证跨网络的分布式事务一致性就没那么容易了。 本质上分布式系统中要减少耗时的事务操作,因为RT过长,事务堵塞必然导致 可用性降低,我们能做的事情就是大事务拆分成小事务, 通过消息队列延长事务到达一 阅读全文
posted @ 2021-11-03 17:27 踏雪扬尘-wx 阅读(398) 评论(0) 推荐(0)

业务自定义缓存框架实现

摘要: 概述 为什么要多级缓存呢?无外乎以下几点: Redis挂了是不可用了, 所有请求全部打到DB ,容易导致缓存雪崩 访问Redis会有序列化和分序列化开销、网络IO成本,虽然性能很高但是终究没有本地缓存快,参考计算机系统中使用L1,L2,L3多级缓存,用来减少对内存的直接访问,从而加快访问速度。 常见 阅读全文
posted @ 2021-10-28 12:39 踏雪扬尘-wx 阅读(115) 评论(0) 推荐(0)

一文彻底搞定分布式锁设计

摘要: 概述 所谓分布式锁,就是在分布式网络环境中对本地锁机制的升级,制造分布式环境下的临界区。保证操作的原子性。 一句话概之就是保证多台服务器在执行某一段代码时保证只有一台服务器执行。 为什么需要分布式锁呢 ? 单机多线程环境是JVM锁就搞定了。但是现在的微服务架构是跨多进程的,需要保证进程级别的互斥性, 阅读全文
posted @ 2021-10-24 19:16 踏雪扬尘-wx 阅读(1025) 评论(1) 推荐(1)