[Spark|Hive] - 随笔分类 - chaplinthink

Hive动态分区

摘要：场景订单数据之类的业务表，因为有状态要更新，比如订单状态，物流状态之类的，需要同步很久之前的数据到Hive. 如何同步时在Hive中进行操作一次更新多个分区内的数据? Hive 操作设置Hive动态分区 SET hive.exec.dynamic.partition=true; SET hive 阅读全文

posted @ 2022-07-24 15:37 chaplinthink 阅读(530) 评论(0) 推荐(0)

大数据各组件重要技术点总结

摘要：主要从架构、组件原理、业务场景等角度针对相关组件的技术要点进行总结阅读全文

posted @ 2022-04-19 21:41 chaplinthink 阅读(870) 评论(0) 推荐(0)

[离线计算-Spark|Hive] HDFS小文件处理

摘要：本文主要介绍小文件的处理方法思路,以及通过阅读源码和相关资料学习hudi 如何在写入时智能的处理小文件问题新思路.Hudi利用spark 自定义分区的机制优化记录分配到不同文件的能力,达到小文件的合并处理. 阅读全文

posted @ 2022-01-20 22:36 chaplinthink 阅读(573) 评论(0) 推荐(0)

[离线计算-Spark|Hive] 数据近实时同步数仓方案设计

摘要：本文主要针对hudi进行调研, 设计MySQL CDC 近实时同步至数仓中方案, 写入主要利用hudi的upsert以及delete能力. 针对hudi 表的查询,引入kyuubi 框架,除了增强平台 spark sql 一些即席查询服务的能力外,同时支持查询hudi表,并可以实现hudi表与hive表的联合查询, 同时对原有hive相关服务没有太大影响. 阅读全文

posted @ 2022-01-17 22:27 chaplinthink 阅读(870) 评论(0) 推荐(1)

[离线计算-Spark|Hive] 大数据应用性能指标采集工具改造落地

摘要：本文主要介绍了下Uber的开源项目jvm-profiler的产生背景,设计原理以及架构, 后面也设计了一套落地方案,用于采集spark、hive任务的资源消耗相关指标,可用于后续分析以及资源调优. 阅读全文

posted @ 2022-01-11 00:12 chaplinthink 阅读(459) 评论(0) 推荐(0)

Antlr4 语法解析器(下)

摘要：Antlr4 的两种AST遍历方式：Visitor方式和 Listener方式。 Antlr4规则文法: 注释：和Java的注释完全一致，也可参考C的注释，只是增加了JavaDoc类型的注释；标志符：参考Java或者C的标志符命名规范，针对Lexer 部分的 Token 名的定义，采用全大写字母阅读全文

posted @ 2021-07-13 19:25 chaplinthink 阅读(2768) 评论(3) 推荐(0)

Antlr4 语法解析生成器(上)

摘要：简介 Spark SQL、Presto --> Antlr4 SQL 解析器 Flink SQL --> Apache Calcite(通过JavaCC 实现) Spark SQL如何进行语法解析: Spark SQL 最终是转换为RDD调用代码, 然后被Spark Core 执行 Antlr4起的阅读全文

posted @ 2021-02-28 17:40 chaplinthink 阅读(1911) 评论(0) 推荐(0)

数据湖-Apache Hudi

摘要：Hudi特性数据湖处理非结构化数据、日志数据、结构化数据支持较快upsert/delete, 可插入索引 Table Schema 小文件管理Compaction ACID语义保证,多版本保证并具有回滚功能 savepoint 用户数据恢复的保存点支持多种分析引擎 spark、hive、pr 阅读全文

posted @ 2021-01-30 13:12 chaplinthink 阅读(1001) 评论(0) 推荐(0)

Spark Web UI 监控详解

摘要：Spark集群环境配置我们有2个节点，每个节点是一个worker，每个worker上启动一个Executor，其中Driver也跑在master上。每个Executor可使用的核数为2，可用的内存为2g，集群中所有Executor最大可用核数为4。 conf/spark defaults.conf 阅读全文

posted @ 2020-01-14 22:25 chaplinthink 阅读(7424) 评论(0) 推荐(0)

Spark on Yarn详解

摘要：Spark 可以跑在很多集群上，比如跑在local上，跑在Standalone上，跑在Apache Mesos上，跑在Hadoop YARN上等等。不管你Spark跑在什么上面，它的代码都是一样的，区别只是–master的时候不一样。其中Spark on YARN是工作中或生产上用的非常多的一种运行阅读全文

posted @ 2019-12-29 21:35 chaplinthink 阅读(9117) 评论(0) 推荐(0)

Spark原理及关键技术点

摘要：Spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同阅读全文

posted @ 2019-12-26 22:45 chaplinthink 阅读(1539) 评论(0) 推荐(0)

kill 掉所有正在运行的hadoop jobs

摘要：get list of job's process IDs JOB_LIST=$(hadoop job -list 2> /dev/null | grep job_ | awk '{print $1}') kill all jobs for JOB in $JOB_LIST do hadoop jo 阅读全文

posted @ 2017-03-24 09:49 chaplinthink 阅读(247) 评论(0) 推荐(0)

Spark2.1.0官方文档

摘要：Spark 概述 Apache Spark是一个快速和通用的集群计算系统。它提供Java，scala,Python、R语言的APIs，以及支持一般执行图形的优化引擎。它还支持一组丰富的高级工具，包括用于SQL和结构化数据处理的Spark SQL，用于机器学习的MLlib，用于图形处理的GraphX 阅读全文

posted @ 2017-03-04 15:14 chaplinthink 阅读(245) 评论(0) 推荐(0)

MapReduce并行编程模型和框架

摘要：传统的串行处理方式有四组文本数据： “the weather is good”, “today is good”, “good weather is good”, “today has good weather” 对这些文本数据进行词频统计: import java.util.Hashtable; 阅读全文

posted @ 2017-02-07 10:09 chaplinthink 阅读(504) 评论(0) 推荐(0)

分布式协调服务-Zookeeper

摘要：什么是 zookeeper? Zookeeper 是google的chubby一个开源实现，是hadoop的分布式协调服务它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务，配置维护和命名服务等。在Hbase中会用到。 Zk(zookeeper简称)可以用来保证数据在zk集群之间的数据阅读全文

posted @ 2017-01-20 09:47 chaplinthink 阅读(178) 评论(0) 推荐(0)

Hadoop2.x 体系结构和源码编译

摘要：体系结构 Hadoop1的核心组成包括HDFS和MapReduce。HDFS和MapReduce的共同点就是他们都是分布式的。 HDFS是包括主节点NameNode,只有一个，还有很多从节点DataNode,还有很多个。 NameNode含有我们用户存储的元数据的信息，把这些数据存储在硬盘上，但是在阅读全文

posted @ 2017-01-15 11:07 chaplinthink 阅读(3483) 评论(0) 推荐(0)

为hadoop集群设置静态IP

摘要：—更新2017年3月1日19:38:49—- 以下是Nat 网络设置，如果你想要同一局域网内的主机可以远程连接上你的集群环境，建议使用桥接模式，具体原因可看文末三种网络连接模式的区别。由于之前设置集群的网络连接方式是NAT ,而IP是动态的。我采用的是自己的电脑搭建的环境，换了个连接网络的地方，i 阅读全文

posted @ 2017-01-13 09:25 chaplinthink 阅读(982) 评论(0) 推荐(0)

Hadoop 2.6.0-cdh5.4.0集群环境搭建和Apache-Hive、Sqoop的安装

摘要：搭建此环境主要用来hadoop的学习，因此我们的操作直接在root用户下，不涉及HA。 Software: Hadoop 2.6.0-cdh5.4.0 Apache-hive-2.1.0-bin Sqoop-1.4.6-cdh5.5.2 JDK1.7.0_79 集群信息：一个主节点，2个从节点。阅读全文

posted @ 2016-12-02 22:42 chaplinthink 阅读(559) 评论(0) 推荐(0)

Hive数据仓库笔记（三）

摘要：Joins: Inner joins: hive> SELECT * FROM sales; Joe 2 Hank 4 Ali 0 Eve 3 Hank 2 hive> SELECT * FROM things; 2 Tie 4 Coat 3 Hat 1 Scarf 两个表Inner joins: 阅读全文

posted @ 2016-07-05 11:49 chaplinthink 阅读(223) 评论(0) 推荐(0)

Hive数据仓库笔记（二）

摘要：分区和桶：分区:可以提高查询的效率，只扫描固定范围数据，不用全部扫描 CREATE TABLE logs (ts BIGINT, lineSTRING) PARTITIONED BY (dt STRING, country STRING); 通过关键字PARTITIONED BY 定义分区表 LO 阅读全文

posted @ 2016-06-28 17:52 chaplinthink 阅读(164) 评论(0) 推荐(0)

随笔分类 - [Spark|Hive]