随笔分类 -  [Spark|Hive]

Hive动态分区
摘要:场景 订单数据之类的业务表,因为有状态要更新,比如订单状态,物流状态之类的,需要同步很久之前的数据到Hive. 如何同步时在Hive中进行操作一次更新多个分区内的数据? Hive 操作 设置Hive动态分区 SET hive.exec.dynamic.partition=true; SET hive 阅读全文

posted @ 2022-07-24 15:37 chaplinthink 阅读(522) 评论(0) 推荐(0)

大数据各组件重要技术点总结
摘要:主要从架构、组件原理、业务场景等角度针对相关组件的技术要点进行总结 阅读全文

posted @ 2022-04-19 21:41 chaplinthink 阅读(859) 评论(0) 推荐(0)

[离线计算-Spark|Hive] HDFS小文件处理
摘要:本文主要介绍小文件的处理方法思路,以及通过阅读源码和相关资料学习hudi 如何在写入时智能的处理小文件问题新思路.Hudi利用spark 自定义分区的机制优化记录分配到不同文件的能力,达到小文件的合并处理. 阅读全文

posted @ 2022-01-20 22:36 chaplinthink 阅读(563) 评论(0) 推荐(0)

[离线计算-Spark|Hive] 数据近实时同步数仓方案设计
摘要:本文主要针对hudi进行调研, 设计MySQL CDC 近实时同步至数仓中方案, 写入主要利用hudi的upsert以及delete能力. 针对hudi 表的查询,引入kyuubi 框架,除 了增强平台 spark sql 一些即席查询服务的能力外,同时支持查询hudi表,并可以实现hudi表与hive表的联合查询, 同时对原有hive相关服务没有太大影响. 阅读全文

posted @ 2022-01-17 22:27 chaplinthink 阅读(847) 评论(0) 推荐(1)

[离线计算-Spark|Hive] 大数据应用性能指标采集工具改造落地
摘要:本文主要介绍了下Uber的开源项目jvm-profiler的产生背景,设计原理以及架构, 后面也设计了一套落地方案,用于采集spark、hive任务的资源消耗相关指标,可用于后续分析以及资源调优. 阅读全文

posted @ 2022-01-11 00:12 chaplinthink 阅读(453) 评论(0) 推荐(0)

Antlr4 语法解析器(下)
摘要:Antlr4 的两种AST遍历方式:Visitor方式 和 Listener方式。 Antlr4规则文法: 注释:和Java的注释完全一致,也可参考C的注释,只是增加了JavaDoc类型的注释; 标志符:参考Java或者C的标志符命名规范,针对Lexer 部分的 Token 名的定义,采用全大写字母 阅读全文

posted @ 2021-07-13 19:25 chaplinthink 阅读(2732) 评论(3) 推荐(0)

Antlr4 语法解析生成器(上)
摘要:简介 Spark SQL、Presto --> Antlr4 SQL 解析器 Flink SQL --> Apache Calcite(通过JavaCC 实现) Spark SQL如何进行语法解析: Spark SQL 最终是转换为RDD调用代码, 然后被Spark Core 执行 Antlr4起的 阅读全文

posted @ 2021-02-28 17:40 chaplinthink 阅读(1883) 评论(0) 推荐(0)

数据湖-Apache Hudi
摘要:Hudi特性 数据湖处理非结构化数据、日志数据、结构化数据 支持较快upsert/delete, 可插入索引 Table Schema 小文件管理Compaction ACID语义保证,多版本保证 并具有回滚功能 savepoint 用户数据恢复的保存点 支持多种分析引擎 spark、hive、pr 阅读全文

posted @ 2021-01-30 13:12 chaplinthink 阅读(988) 评论(0) 推荐(0)

Spark Web UI 监控详解
摘要:Spark集群环境配置 我们有2个节点,每个节点是一个worker,每个worker上启动一个Executor,其中Driver也跑在master上。每个Executor可使用的核数为2,可用的内存为2g,集群中所有Executor最大可用核数为4。 conf/spark defaults.conf 阅读全文

posted @ 2020-01-14 22:25 chaplinthink 阅读(7312) 评论(0) 推荐(0)

Spark on Yarn详解
摘要:Spark 可以跑在很多集群上,比如跑在local上,跑在Standalone上,跑在Apache Mesos上,跑在Hadoop YARN上等等。不管你Spark跑在什么上面,它的代码都是一样的,区别只是–master的时候不一样。其中Spark on YARN是工作中或生产上用的非常多的一种运行 阅读全文

posted @ 2019-12-29 21:35 chaplinthink 阅读(9073) 评论(0) 推荐(0)

Spark原理及关键技术点
摘要:Spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同 阅读全文

posted @ 2019-12-26 22:45 chaplinthink 阅读(1524) 评论(0) 推荐(0)

kill 掉所有正在运行的hadoop jobs
摘要:get list of job's process IDs JOB_LIST=$(hadoop job -list 2> /dev/null | grep job_ | awk '{print $1}') kill all jobs for JOB in $JOB_LIST do hadoop jo 阅读全文

posted @ 2017-03-24 09:49 chaplinthink 阅读(240) 评论(0) 推荐(0)

Spark2.1.0官方文档
摘要:Spark 概述 Apache Spark是一个快速和通用的集群计算系统。它提供Java,scala,Python、R语言的APIs,以及支持一般执行图形的优化引擎。 它还支持一组丰富的高级工具,包括用于SQL和结构化数据处理的Spark SQL,用于机器学习的MLlib,用于图形处理的GraphX 阅读全文

posted @ 2017-03-04 15:14 chaplinthink 阅读(229) 评论(0) 推荐(0)

MapReduce并行编程模型和框架
摘要:传统的串行处理方式 有四组文本数据: “the weather is good”, “today is good”, “good weather is good”, “today has good weather” 对这些文本数据进行词频统计: import java.util.Hashtable; 阅读全文

posted @ 2017-02-07 10:09 chaplinthink 阅读(494) 评论(0) 推荐(0)

分布式协调服务-Zookeeper
摘要:什么是 zookeeper? Zookeeper 是google的chubby一个开源实现,是hadoop的分布式协调服务 它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。 在Hbase中会用到。 Zk(zookeeper简称)可以用来保证数据在zk集群之间的数据 阅读全文

posted @ 2017-01-20 09:47 chaplinthink 阅读(169) 评论(0) 推荐(0)

Hadoop2.x 体系结构和源码编译
摘要:体系结构 Hadoop1的核心组成包括HDFS和MapReduce。HDFS和MapReduce的共同点就是他们都是分布式的。 HDFS是包括主节点NameNode,只有一个,还有很多从节点DataNode,还有很多个。 NameNode含有我们用户存储的元数据的信息,把这些数据存储在硬盘上,但是在 阅读全文

posted @ 2017-01-15 11:07 chaplinthink 阅读(3468) 评论(0) 推荐(0)

为hadoop集群设置静态IP
摘要:—更新2017年3月1日19:38:49—- 以下是Nat 网络设置,如果你想要同一局域网内的主机可以远程连接上你的集群环境,建议使用桥接模式,具体原因可看文末三种网络连接模式的区别。 由于之前设置集群的网络连接方式是NAT ,而IP是动态的。我采用的是自己的电脑搭建的环境,换了个连接网络的地方,i 阅读全文

posted @ 2017-01-13 09:25 chaplinthink 阅读(967) 评论(0) 推荐(0)

Hadoop 2.6.0-cdh5.4.0集群环境搭建和Apache-Hive、Sqoop的安装
摘要:搭建此环境主要用来hadoop的学习,因此我们的操作直接在root用户下,不涉及HA。 Software: Hadoop 2.6.0-cdh5.4.0 Apache-hive-2.1.0-bin Sqoop-1.4.6-cdh5.5.2 JDK1.7.0_79 集群信息: 一个主节点,2个从节点。 阅读全文

posted @ 2016-12-02 22:42 chaplinthink 阅读(546) 评论(0) 推荐(0)

Hive数据仓库笔记(三)
摘要:Joins: Inner joins: hive> SELECT * FROM sales; Joe 2 Hank 4 Ali 0 Eve 3 Hank 2 hive> SELECT * FROM things; 2 Tie 4 Coat 3 Hat 1 Scarf 两个表Inner joins: 阅读全文

posted @ 2016-07-05 11:49 chaplinthink 阅读(212) 评论(0) 推荐(0)

Hive数据仓库笔记(二)
摘要:分区和桶: 分区:可以提高查询的效率,只扫描固定范围数据,不用全部扫描 CREATE TABLE logs (ts BIGINT, lineSTRING) PARTITIONED BY (dt STRING, country STRING); 通过关键字PARTITIONED BY 定义分区表 LO 阅读全文

posted @ 2016-06-28 17:52 chaplinthink 阅读(157) 评论(0) 推荐(0)

导航