HBase - 随笔分类 - lillcol

Hbase问题小结(一)

摘要：1. Hbase读写优化写：批量写、异步批量提交、多线程并发写、使用BulkLoad写入、表优化（压缩算法、预分区、合理的rowkey设计、合理关闭WAL或异步WAL） SKIP_WAL：只写缓存，不写HLog日志。这种方式因为只写内存，因此可以极大的提升写入性能，但是数据有丢失的风险。在实际应阅读全文

posted @ 2021-05-12 16:56 lillcol 阅读(684) 评论(0) 推荐(0)

ExceptionInChainedOperatorException：flink写hbase对于null数据导致数据导致出现异常

摘要：使用的flink版本：1.9.1 异常描述需求： 1. 从kafka读取一条数据流 2. 经过filter初次筛选符合要求的数据 3. 然后通过map进行一次条件判断再解析。这个这个过程中可能返回null或目标输出outData。 4. 最后将outData通过自定义sink写入hbase。转换阅读全文

posted @ 2020-04-22 15:41 lillcol 阅读(2602) 评论(0) 推荐(0)

hbase-spark bulk load(二)

摘要：概述之前写过spark批量导入Hbase的案例： "Spark、BulkLoad Hbase、单列、多列" ，实现了多列的操作。整个过程涉及到排序、分解等操作相对复杂。最近看 "官网的文档" ,发现有两种方法： 73节的中的为我之前实现的方法 111节的为hbase spark中自带的方法阅读全文

posted @ 2020-01-14 14:53 lillcol 阅读(1307) 评论(0) 推荐(0)

Spark、BulkLoad Hbase、单列、多列

摘要：背景之前的博客： "Spark：DataFrame写HFile （Hbase）一个列族、一个列扩展一个列族、多个列" 用spark 1.6.0 和 hbase 1.2.0 版本实现过spark BulkLoad Hbase的功能,并且扩展了其只能操作单列的不便性。现在要用spark 2.3.2 阅读全文

posted @ 2019-09-18 15:36 lillcol 阅读(2355) 评论(0) 推荐(0)

HBase 入门

摘要：Hbase简介 "参考：Hbase技术详细学习笔记" "如何合理的设计HBase RowKey?" Hbase是分布式、面向列的开源数据库（其实准确的说是面向列族）。 HDFS为Hbase提供可靠的底层数据存储服务； MapReduce为Hbase提供高性能的计算能力； Zookeeper为Hbas 阅读全文

posted @ 2019-07-10 22:07 lillcol 阅读(424) 评论(0) 推荐(0)

Spark：DataFrame批量导入Hbase的两种方式(HFile、Hive)

摘要：Spark处理后的结果数据resultDataFrame可以有多种存储介质，比较常见是存储为文件、关系型数据库，非关系行数据库。各种方式有各自的特点，对于海量数据而言，如果想要达到实时查询的目的，使用HBase作为存储的介质是非常不错的选择。现需求是：Spark对Hive、mysql数据源进行处阅读全文

posted @ 2018-10-16 18:20 lillcol 阅读(4119) 评论(0) 推荐(0)

lillcol

随笔分类 - HBase

公告