随笔分类 -  HBase

HBase 相关文章
摘要:1. Hbase读写优化 写: 批量写、异步批量提交、多线程并发写、使用BulkLoad写入、表优化(压缩算法、预分区、合理的rowkey设计、合理关闭WAL或异步WAL) SKIP_WAL:只写缓存,不写HLog日志。这种方式因为只写内存,因此可以极大的提升写入性能,但是数据有丢失的风险。在实际应 阅读全文
posted @ 2021-05-12 16:56 lillcol 阅读(684) 评论(0) 推荐(0)
摘要:使用的flink版本:1.9.1 异常描述 需求: 1. 从kafka读取一条数据流 2. 经过filter初次筛选符合要求的数据 3. 然后通过map进行一次条件判断再解析。这个这个过程中可能返回null或目标输出outData。 4. 最后将outData通过自定义sink写入hbase。 转换 阅读全文
posted @ 2020-04-22 15:41 lillcol 阅读(2602) 评论(0) 推荐(0)
摘要:概述 之前写过spark批量导入Hbase的案例: "Spark、BulkLoad Hbase、单列、多列" ,实现了多列的操作。整个过程涉及到排序、分解等操作相对复杂。 最近看 "官网的文档" ,发现有两种方法: 73节的 中的为我之前实现的方法 111节的 为hbase spark中自带的方法 阅读全文
posted @ 2020-01-14 14:53 lillcol 阅读(1307) 评论(0) 推荐(0)
摘要:背景 之前的博客: "Spark:DataFrame写HFile (Hbase)一个列族、一个列扩展一个列族、多个列" 用spark 1.6.0 和 hbase 1.2.0 版本实现过spark BulkLoad Hbase的功能,并且扩展了其只能操作单列的不便性。 现在要用spark 2.3.2 阅读全文
posted @ 2019-09-18 15:36 lillcol 阅读(2355) 评论(0) 推荐(0)
摘要:Hbase简介 "参考:Hbase技术详细学习笔记" "如何合理的设计HBase RowKey?" Hbase是分布式、面向列的开源数据库(其实准确的说是面向列族)。 HDFS为Hbase提供可靠的底层数据存储服务; MapReduce为Hbase提供高性能的计算能力; Zookeeper为Hbas 阅读全文
posted @ 2019-07-10 22:07 lillcol 阅读(424) 评论(0) 推荐(0)
摘要:Spark处理后的结果数据resultDataFrame可以有多种存储介质,比较常见是存储为文件、关系型数据库,非关系行数据库。 各种方式有各自的特点,对于海量数据而言,如果想要达到实时查询的目的,使用HBase作为存储的介质是非常不错的选择。 现需求是:Spark对Hive、mysql数据源进行处 阅读全文
posted @ 2018-10-16 18:20 lillcol 阅读(4119) 评论(0) 推荐(0)