随笔分类 - Hadoop
Hadoop相关文章
摘要:1. Hbase读写优化 写: 批量写、异步批量提交、多线程并发写、使用BulkLoad写入、表优化(压缩算法、预分区、合理的rowkey设计、合理关闭WAL或异步WAL) SKIP_WAL:只写缓存,不写HLog日志。这种方式因为只写内存,因此可以极大的提升写入性能,但是数据有丢失的风险。在实际应
阅读全文
摘要:系列文章: 大数据系列:一文初识Hdfs 大数据系列2:Hdfs的读写操作 大数据谢列3:Hdfs的HA实现 通过前文,我们对Hdfs的已经有了一定的了解,本文将继续之前的内容,介绍Yarn与Yarn在MapReduce 2的应用 MapReduce1 作业流程 在介绍Yarn之前,我们先介绍一下M
阅读全文
摘要:在之前的文章:大数据系列:一文初识Hdfs , 大数据系列2:Hdfs的读写操作 中Hdfs的组成、读写有简单的介绍。 在里面介绍Secondary NameNode和Hdfs读写的流程。 并且在文章结尾也说了,Secondary NameNode并不是我常说的HA,(High Availabili
阅读全文
摘要:在前文大数据系列1:一文初识Hdfs中,我们对Hdfs有了简单的认识。 在本文中,我们将会简单的介绍一下Hdfs文件的读写流程,为后续追踪读写流程的源码做准备。 Hdfs 架构 首先来个Hdfs的架构图,图中中包含了Hdfs 的组成与一些操作。 对于一个客户端而言,对于Hdfs的操作不外乎也就读写两
阅读全文
摘要:最近有位同事经常问一些Hadoop的东西,特别是Hdfs的一些细节,有些记得不清楚,所以趁机整理一波。 会按下面的大纲进行整理: 简单介绍Hdfs 简单介绍Hdfs读写流程 介绍Hdfs HA实现方式 介绍Yarn统一资源管理器 追一下Hdfs读写的源码 同时也有其他方面的整理,有兴趣可以看看: 算
阅读全文
摘要:使用的flink版本:1.9.1 异常描述 需求: 1. 从kafka读取一条数据流 2. 经过filter初次筛选符合要求的数据 3. 然后通过map进行一次条件判断再解析。这个这个过程中可能返回null或目标输出outData。 4. 最后将outData通过自定义sink写入hbase。 转换
阅读全文
摘要:关于分配器介绍内容来自 "官网" 窗口分配的概念 窗口分配程序(Window Assigners)定义如何将元素分配给窗口。 通过 或``windowAll()for non keyed streams)``指定需要的WindowAssigner。 WindowAssigner负责将每个传入元素分配
阅读全文
摘要:flink 触发器 触发器确定窗口(由窗口分配程序形成)何时准备由窗口函数处理。每个WindowAssigner都带有一个默认触发器。 如果默认触发器不适合需求,我们就需要自定义触发器。 主要方法 触发器接口有五种方法,允许触发器对不同的事件作出反应 1. 添加到每个窗口的元素都会调用此方法。 2.
阅读全文
摘要:概述 之前写过spark批量导入Hbase的案例: "Spark、BulkLoad Hbase、单列、多列" ,实现了多列的操作。整个过程涉及到排序、分解等操作相对复杂。 最近看 "官网的文档" ,发现有两种方法: 73节的 中的为我之前实现的方法 111节的 为hbase spark中自带的方法
阅读全文
摘要:使用flink FlinkKafkaProducer 往kafka写入数据的时候要求使用EXACTLY_ONCE语义 本以为本以为按照官网写一个就完事,但是却报错了 代码 遇到问题 当 指定为 时,执行没有问题。 当 指定为 时,执行报下面的错误: 错误大意是: 事务超时大于broker允许的最大值
阅读全文
摘要:背景 之前的博客: "Spark:DataFrame写HFile (Hbase)一个列族、一个列扩展一个列族、多个列" 用spark 1.6.0 和 hbase 1.2.0 版本实现过spark BulkLoad Hbase的功能,并且扩展了其只能操作单列的不便性。 现在要用spark 2.3.2
阅读全文
摘要:组建信息 组件 | 版本|下载地址 : :|: :|: : maven | 3.6.1 | https://maven.apache.org/ jdk | jdk1.8.0 | https://www.oracle.com/technetwork/java/javase/downloads/jdk8
阅读全文
摘要:Shuffle 概述 影响Spark性能的大BOSS就是shuffle,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。 因此,如果要让作业的性能更上一层楼,就有必要对 shuffle 过程进行调优。 当然,影响 Spark 性能的还有代码开发、参数设置数以及数据倾斜的解决等,甚至这部分
阅读全文
摘要:什么是数据倾斜? Spark 的计算抽象如下 数据倾斜指的是:并行处理的数据集中,某一部分(如 Spark 或 Kafka 的一个 Partition)的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈。 如果数据倾斜不能解决,其他的优化手段再逆天都白搭,如同短板效应,任务完成
阅读全文
摘要:SparkContext 是什么? 1. 驱动程序使用SparkContext与集群进行连接和通信,它可以帮助执行Spark任务,并与资源管理器(如YARN 或Mesos)进行协调。 2. 使用SparkContext,可以访问其他上下文,比如SQLContext和HiveContext。 3. 使
阅读全文
摘要:Spark 版本 2.3 文中测试数据(json) 用户自定义udf 自定义udf的方式有两种 1. SQLContext.udf.register() 2. 创建UserDefinedFunction 这两种个方式 使用范围不一样 package com.test.spark import org
阅读全文
摘要:读 package com.test.spark import org.apache.spark.sql.{Dataset, Row, SaveMode, SparkSession} / @author Administrator 2019/7/22 17:09 / object TestReadD
阅读全文
摘要:本文将学习如何使用java创建Storm拓扑 Storm集群的组件 Storm集群类似于Hadoop集群,只不过 Hadoop 上运行"MapReduce jobs", Storm 上运行"topologies"。 两者最大的差别是,MapReducejobs 最终是完成的,而 topologies
阅读全文
摘要:本文参考: "黑泽君相关博客" 本文是我总结日常工作中遇到的坑,结合黑泽君相关博客,选取、补充了部分内容。 表的优化 小表join大表、大表join小表 将key相对分散,并且数据量小的表放在join的左边,这样可以有效减少内存溢出错误发生的几率; 再进一步,可以使用map join让小的维度表(1
阅读全文
摘要:本文参考: "黑泽君相关博客" 本文是我总结日常工作中遇到的坑,结合黑泽君相关博客,选取、补充了部分内容。 开启 map 输出阶段压缩可以减少 job 中 map 和 Reduce task 间数据传输量。 查看配置命令如下,对应的设置只要加上相关值即可,如下 当 Hive 将输出写入到表中时,输出
阅读全文

浙公网安备 33010602011771号