会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
哥不是小萝莉
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
5
6
7
8
9
10
11
12
13
···
21
下一页
2019年3月18日
Kafka数据迁移
摘要: 1.概述 Kafka的使用场景非常广泛,一些实时流数据业务场景,均依赖Kafka来做数据分流。而在分布式应用场景中,数据迁移是一个比较常见的问题。关于Kafka集群数据如何迁移,今天笔者将为大家详细介绍。 2.内容 本篇博客为大家介绍两种迁移场景,分别是同集群数据迁移、跨集群数据迁移。如下图所示:
阅读全文
posted @ 2019-03-18 11:28 哥不是小萝莉
阅读(14824)
评论(0)
推荐(3)
2019年2月24日
Flink生成Parquet格式文件实战
摘要: 1.概述 在流数据应用场景中,往往会通过Flink消费Kafka中的数据,然后将这些数据进行结构化到HDFS上,再通过Hive加载这些文件供后续业务分析。今天笔者为大家分析如何使用Flink消费Kafka的数据后,将消费后的数据结构化到Hive数据仓库中。 2.内容 Hive能够识别很多类型的文件,
阅读全文
posted @ 2019-02-24 16:47 哥不是小萝莉
阅读(12946)
评论(3)
推荐(2)
2019年1月9日
HBase2实战:HBase Flink和Kafka整合
摘要: 1.概述 Apache官方发布HBase2已经有一段时间了,HBase2中包含了许多个Features,从官方JIRA来看,大约有4500+个ISSUES(查看地址),从版本上来看是一个非常大的版本了。本篇博客将为大家介绍HBase2的新特性,以及如何在实战中与Flink、Kafka等组件进行整合。
阅读全文
posted @ 2019-01-09 18:08 哥不是小萝莉
阅读(10289)
评论(0)
推荐(1)
2018年12月9日
Kafka性能测试实例
摘要: 1.概述 在分布式实时数据流场景下,随着数据量的增长,对Kafka集群的性能和稳定性的要求也很高。本篇博客将从生产者和消费者两方面来做性能测试,针对具体的业务和数据量,来调优Kafka集群。 2.内容 2.1 测试环境 本次测试的环境信息由三台物理机组成,具体信息如下所示: 2.2 测试工具 Kaf
阅读全文
posted @ 2018-12-09 22:37 哥不是小萝莉
阅读(23489)
评论(2)
推荐(4)
2018年11月19日
使用Flume消费Kafka数据到HDFS
摘要: 1.概述 对于数据的转发,Kafka是一个不错的选择。Kafka能够装载数据到消息队列,然后等待其他业务场景去消费这些数据,Kafka的应用接口API非常的丰富,支持各种存储介质,例如HDFS、HBase等。如果不想使用Kafka API编写代码去消费Kafka Topic,也是有组件可以去集成消费
阅读全文
posted @ 2018-11-19 17:12 哥不是小萝莉
阅读(21199)
评论(0)
推荐(1)
2018年11月10日
Kafka并不难学
摘要: 1.为什么写这本书? 我建立了一个qq群,有很多人在群里面学习和交流,经常有人问我一些Kafka的知识,我可以感受他们对技术的热情,这是一群刚走出校门,或者工作经验较少,又或是一些转型的开发新人,他们希望通过自学提高自己的开发能力,但是又没有学习渠道和正确的方法,于是我写了这本书。 2.开始写作 2
阅读全文
posted @ 2018-11-10 17:25 哥不是小萝莉
阅读(3241)
评论(4)
推荐(1)
2018年10月21日
Kafka控制器选举流程剖析
摘要: 1.概述 平时在使用Kafka的时候,可能关注的更多的是Kafka系统层面的。今天来给大家剖析一下Kafka的控制器,了解一下Kafka控制器的选举流程。 2.内容 Kafka控制器,其实就是一个Kafka系统的Broker。它除了具有一般Broker的功能之外,还具有选举主题分区Leader节点的
阅读全文
posted @ 2018-10-21 21:15 哥不是小萝莉
阅读(5363)
评论(3)
推荐(1)
2018年9月15日
HBase Region合并分析
摘要: 1.概述 HBase中表的基本单位是Region,日常在调用HBase API操作一个表时,交互的数据也会以Region的形式进行呈现。一个表可以有若干个Region,今天笔者就来和大家分享一下Region合并的一些问题和解决方法。 2.内容 在分析合并Region之前,我们先来了解一下Region
阅读全文
posted @ 2018-09-15 00:59 哥不是小萝莉
阅读(12057)
评论(0)
推荐(3)
2018年8月19日
HBase BulkLoad批量写入数据实战
摘要: 1.概述 在进行数据传输中,批量加载数据到HBase集群有多种方式,比如通过HBase API进行批量写入数据、使用Sqoop工具批量导数到HBase集群、使用MapReduce批量导入等。这些方式,在导入数据的过程中,如果数据量过大,可能耗时会比较严重或者占用HBase集群资源较多(如磁盘IO、H
阅读全文
posted @ 2018-08-19 17:29 哥不是小萝莉
阅读(37641)
评论(0)
推荐(4)
2018年8月12日
HBase查询优化之Short-Circuit Local Reads
摘要: 1.概述 在《HBase查询优化》一文中,介绍了基于HBase层面的读取优化。由于HBase的实际数据是以HFile的形式,存储在HDFS上。那么,HDFS层面也有它自己的优化点,即:Short-Circuit Local Reads。本篇博客笔者将从HDFS层面来进行优化,从而间接的提升HBase
阅读全文
posted @ 2018-08-12 13:45 哥不是小萝莉
阅读(4519)
评论(0)
推荐(2)
上一页
1
···
5
6
7
8
9
10
11
12
13
···
21
下一页
公告