摘要: Flume Source 详解 Source 类型 Flume 支持从不同的 Source(数据源)采集数据,如下: 数据源描述 Avro Source 通过监听一个网络端口来接受数据,而且接受的数据必须是使用avro序列化框架序列化后的数据; Thrift Source 监听Thrift端口并从外 阅读全文
posted @ 2022-01-28 23:55 追こするれい的人 阅读(129) 评论(0) 推荐(0) 编辑
摘要: 核心概念 Agent Flume 最核心的角色就是 Agent。Flume 数据采集系统是由一个个 Agent 连接起来的数据传输通道 对于每个 Agent来 说就是一个独立的守护进程(JVM),它负责从数据源接收数据,并发送到下一个目的地 Agent 内部有三个重要的组件:Source,Chann 阅读全文
posted @ 2022-01-28 21:43 追こするれい的人 阅读(78) 评论(0) 推荐(0) 编辑
摘要: Flume 是什么 Flume 是一个开源的分布式数据收集框架,可以提供一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统 当前 Flume 有两个版本 Flume 0.9X 版本的统称 Flume-og,Flume1.X 版本的统称 Flume-ng。由于 Flume-ng 经过重大重 阅读全文
posted @ 2022-01-28 20:47 追こするれい的人 阅读(139) 评论(0) 推荐(0) 编辑
摘要: 为什么需要二级索引 HBase 一个令人惋惜的地方,就是不支持二级索引。因此,在实际项目开发中有一些补充方案来填补 HBase 的二级索引能力的缺陷。 HBase 系统单纯从解决大数据实时读写问题角度出发,重点关注于分布式存储的扩展性、容错性、读写性能等方面,为此也牺牲了很多传统关系型数据库的功能, 阅读全文
posted @ 2022-01-28 20:42 追こするれい的人 阅读(204) 评论(0) 推荐(0) 编辑
摘要: HBase Region 拆分与合并 Region 拆分 Region 自动拆分 HBase Region 的自动拆分有 6 种触发策略,如下: ConstantSizeRegionSplitPolicy :按照固定大小来拆分 Region 策略 IncreasingToUpperBoundRegi 阅读全文
posted @ 2022-01-28 20:28 追こするれい的人 阅读(346) 评论(0) 推荐(0) 编辑
摘要: 何为 Compaction 通过 MemStore 的 Flush 机制会生成一个个 HFile 小文件,HFile 小文件如果数量太多会影响读取性能。为了提高读取效率,就需要通过 Compaction 机制将小文件 HFile 合并成大文件,提升读取效率。 Compaction 的作用 在 HBa 阅读全文
posted @ 2022-01-28 20:10 追こするれい的人 阅读(510) 评论(0) 推荐(0) 编辑
摘要: 什么是 MemStore Flush 机制 Region 的 写缓存 MemStore 将数据写入到磁盘中并产生 HFile 文件的过程叫做 MemStore Flush 机制 触发 MemStore Flush 机制的情况 客户端手工触发 Flush 机制 执行 Flush 命令将 Table 表 阅读全文
posted @ 2022-01-28 19:56 追こするれい的人 阅读(119) 评论(0) 推荐(0) 编辑