会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
哥不是小萝莉
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
8
9
10
11
12
13
14
15
16
···
21
下一页
2017年2月5日
Apache Arrow 内存数据
摘要: 1.概述 Apache Arrow 是 Apache 基金会全新孵化的一个顶级项目。它设计的目的在于作为一个跨平台的数据层,来加快大数据分析项目的运行速度。 2.内容 现在大数据处理模型很多,用户在应用大数据分析时,除了将 Hadoop 等大数据平台作为一个存储和批处理平台之外,同样也得关注系统的扩
阅读全文
posted @ 2017-02-05 16:04 哥不是小萝莉
阅读(14361)
评论(1)
推荐(1)
2017年1月9日
Kafka Offset Storage
摘要: 1.概述 目前,Kafka 官网最新版[0.10.1.1],已默认将消费的 offset 迁入到了 Kafka 一个名为 __consumer_offsets 的Topic中。其实,早在 0.8.2.2 版本,已支持存入消费的 offset 到Topic中,只是那时候默认是将消费的 offset 存
阅读全文
posted @ 2017-01-09 20:26 哥不是小萝莉
阅读(13747)
评论(0)
推荐(4)
2016年12月7日
Hive Streaming 追加 ORC 文件
摘要: 1.概述 在存储业务数据的时候,随着业务的增长,Hive 表存储在 HDFS 的上的数据会随时间的增加而增加,而以 Text 文本格式存储在 HDFS 上,所消耗的容量资源巨大。那么,我们需要有一种方式来减少容量的成本。而在 Hive 中,有一种 ORC 文件格式可以极大的减少存储的容量成本。今天,
阅读全文
posted @ 2016-12-07 12:08 哥不是小萝莉
阅读(4882)
评论(6)
推荐(2)
2016年11月4日
Kafka 分区备份实战
摘要: 1.概述 在 Kafka 集群中,我们可以对每个 Topic 进行一个或是多个分区,并为该 Topic 指定备份数。这部分元数据信息都是存放在 Zookeeper 上,我们可以使用 zkCli 客户端,通过 ls 和 get 命令来查看元数据信息。通过 log.dirs 属性控制消息存放路径,每个分
阅读全文
posted @ 2016-11-04 16:27 哥不是小萝莉
阅读(6915)
评论(2)
推荐(3)
2016年10月8日
Hive SQL 监控系统 - Hive Falcon
摘要: 1.概述 在开发工作当中,提交 Hadoop 任务,任务的运行详情,这是我们所关心的,当业务并不复杂的时候,我们可以使用 Hadoop 提供的命令工具去管理 YARN 中的任务。在编写 Hive SQL 的时候,需要在 Hive 终端,编写 SQL 语句,来观察 MapReduce 的运行情况,长此
阅读全文
posted @ 2016-10-08 09:56 哥不是小萝莉
阅读(6062)
评论(5)
推荐(4)
2016年9月1日
Kafka 消息监控 - Kafka Eagle
摘要: 1.概述 在开发工作当中,消费 Kafka 集群中的消息时,数据的变动是我们所关心的,当业务并不复杂的前提下,我们可以使用 Kafka 提供的命令工具,配合 Zookeeper 客户端工具,可以很方便的完成我们的工作。随着业务的复杂化,Group 和 Topic 的增加,此时我们使用 Kafka 提
阅读全文
posted @ 2016-09-01 13:15 哥不是小萝莉
阅读(48844)
评论(72)
推荐(9)
2016年8月10日
Flink 案例整合
摘要: 1.概述 Flink 1.1.0 版本已经在官方发布了,官方博客于 2016-08-08 更新了 Flink 1.1.0 的变动。在这 Flink 版本的发布,添加了 SQL 语法这一特性。这对于业务场景复杂,依赖于 SQL 来分析统计数据,算得上是一个不错的福利。加上之前有同学和朋友邮件中提到,F
阅读全文
posted @ 2016-08-10 17:04 哥不是小萝莉
阅读(25473)
评论(2)
推荐(2)
2016年7月13日
Hadoop 生态系统
摘要: 1.概述 最近收到一些同学和朋友的邮件,说能不能整理一下 Hadoop 生态圈的相关内容,然后分享一些,我觉得这是一个不错的提议,于是,花了一些业余时间整理了 Hadoop 的生态系统,并将其进行了归纳总结,进而将其以表格的形式进行了罗列。涉及的内容有以下几点: 分布式文件系统 分布式编程模型 No
阅读全文
posted @ 2016-07-13 15:36 哥不是小萝莉
阅读(6181)
评论(2)
推荐(7)
2016年6月13日
Flink 剖析
摘要: 1.概述 在如今数据爆炸的时代,企业的数据量与日俱增,大数据产品层出不穷。今天给大家分享一款产品—— Apache Flink,目前,已是 Apache 顶级项目之一。那么,接下来,笔者为大家介绍Flink 的相关内容。 2.内容 2.1 What's Flink Apache Flink 是一个面
阅读全文
posted @ 2016-06-13 15:23 哥不是小萝莉
阅读(33333)
评论(6)
推荐(6)
2016年6月5日
Spark 实时计算整合案例
摘要: 1.概述 最近有同学问道,除了使用 Storm 充当实时计算的模型外,还有木有其他的方式来实现实时计算的业务。了解到,在使用 Storm 时,需要编写基于编程语言的代码。比如,要实现一个流水指标的统计,需要去编写相应的业务代码,能不能有一种简便的方式来实现这一需求。在解答了该同学的疑惑后,整理了该实
阅读全文
posted @ 2016-06-05 15:35 哥不是小萝莉
阅读(8845)
评论(3)
推荐(4)
上一页
1
···
8
9
10
11
12
13
14
15
16
···
21
下一页
公告