大数据组件太多,侧重多学习这几个吧。

本文收录于我的Git仓库,我的Git地址

大数据技术派

大数据技术派,分享优质文章,技术资料,包括但不限于主流的大数据技术:Hadoop、Kafka、Hbase、Flink、Spark等。

资料

整理的一些资料,后面也会一直更新,一直维护,Git也会一直维护更新。

大数据技术

干货,主流大数据技术总结

学习建议,大数据组件那么多,可以重点学习这几个。

大数据SQL中的Join【谓词下推】讲解

一、Hadoop

Hadoop 数据迁移用法详解
Hbase修复工具Hbck

HDFS的快照

Hadoop3数据容错技术(纠删码)

Hadoop 核心 - HDFS 分布式文件系统详解

大数据组件重点学习这几个

YARN调度器(Scheduler)详解

二、Hbase

Hbase修复工具Hbck

Hbase构建二级索引的一些解决方案

Hbase集群挂掉的一次惊险经历

面试必问 | HBase最新面试总结

深入理解HBase Memstore

Hbase统计表的行数的3种方法

Hbase修复工具Hbck与Hbck2,异常定位和修复

彻底搞清Flink中的Window

Flink之Watermark详解

Flink状态管理与状态一致性

Flink实时计算topN热榜

Flink计算pv和uv的通用方法

Flink的处理背压原理及问题

基于Flink+ClickHouse打造轻量级点击流实时数仓

Flink 是如何统一批流引擎的

flink sql 知其所以然(二)| 自定义 redis 数据维表(附源码)

四、Spark

Spark开发常用参数(最全)

Spark性能优化指南——基础篇

Spark性能优化指南——高级篇

Spark调优 | 不可避免的 Join 优化

SparkStreaming项目实战,实时计算pv和uv

Spark调优 | Spark OOM问题常见解决方式

Spark SQL知识点与实战

干货|Spark优化之高性能Range Join

五、数据仓库

数仓架构发展史

数仓建模方法论

数仓建模分层理论

数仓建模—宽表的设计

数仓建模—指标体系

一文搞懂ETL和ELT的区别

数据湖知识点

技术选型 | OLAP大数据技术哪家强?

数仓相关面试题

从 0 到 1 学习 Presto,这一篇就够了!

元数据管理在数据仓库的实践应用

做中台2年多了,中台到底是什么呢?万字长文来聊一聊中台

六、Hive

Hive表的基本操作(必会)

Hive中的集合数据类型

Hive动态分区详解

Hive 中的四种排序详解,再也不会混淆用法了。

Hive窗口函数row number的用法, 你肯定都会吧!

Hive必会SQL语法explode 和 lateral view

Hive进阶—抽样的各种玩法

Hive整合Hbase

Impala一文详解及与hive简单对比

一文搞懂Hive的数据存储与压缩

彻底解决Hive小文件问题

Hive计算最大连续登陆天数

Hive实战UDF 外部依赖文件找不到的问题

Hive实战—时间滑动窗口计算

七、Kafka

2万文字,一文搞懂Kafka

面试官问: kafka 重试机制原理

八、Docker

5分钟安装docker教程

Docker 安装 wordpress,通过nginx反向代理,绑定域名,配置https

九、数据库

大数据中使用Redis计算UV的4种方法

十、程序人生

工作三年的一些感悟

posted @ 2022-01-11 22:28  大数据技术派  阅读(373)  评论(0)    收藏  举报