随笔分类 - Hadoop相关
摘要:Kafka 日志消息保存时间总结 Kafka 作为一个高吞吐的消息中间件和传统的消息中间件一个很大的不同点就在于它的日志实际上是以日志的方式默认保存在/kafka logs文件夹中的。虽然默认有7天清楚的机制,但是在数据量大,而磁盘容量不足的情况下,经常出现无法写入的情况。如何调整Kafka的一些默
阅读全文
摘要:Zookeeper入门笔记(二) zookeeper命令介绍总结 最近工作中,发现组内同学在zk出现了故障,问题的时候很多时候都无所是从,不知道如何下手,很多智能看提示,日志,这里整理一个关于zk的命令集锦给大家参看, zkCmd命令行位置 zk模块和其它Hadoop环境模块的命令使用略有不同。其命
阅读全文
摘要:Kafka进阶知识 消息概念 消息指的是通信的基本单位。由消息生产者(producer)发布关于某个话题(topic)的消息。简单来说:消息以一种物理方式被发送给了作为代理(broker)的服务器(可能是另外一台机器)。若干的消息使用者(consumer)订阅(subscribe)某个话题,然后生产
阅读全文
摘要:Kafka 入门知识 Apache Kafka 是一个分布式的流平台。(大多数时候,我们认为它是只是一个分布式的消息中间件,个人以为不完全是)。根据官方的说法:一个流处理平台要具有三个关键的能力: 发布和订阅消息的能力。这方面与消息队列比较类似。 以容错的方式存储消息(流)。 在消息流发生时处理他们
阅读全文
摘要:最近笔者公司开始使用TSDB,但很多同事反馈看不懂row_key怎么计算出来的,不方便调试核对,因此特写本文供同事调试使用。由于只是讲解如何计算,因此不涉及TSDB理论及为什么会这样,有兴趣的同学可以自行google TSDB RowKey设计规则介绍 TSDB作为基于HBase的时序数据库,其最大
阅读全文
摘要:进入HBase 命令行 查看Hbase 的状态 status 显示HBase 中的表 list 删除表 drop 删除表的前提是表要处于disable的状态,如果没有则disable 表 创建表 create create 第一个参数是代表Row ,后面的代表Column 插入数据 put 需要主要
阅读全文
摘要:本文所涉及的Hadoop的文件系统主要是HDFS,通过JavaAPI的方式和HDFS进行交互。 创建一个空的Maven工程 通过Idea创建一个空的Maven工程,创建完毕以后,由于pom中未定义任何的组件,没有编写相关的代码,所以工程没有实质的内容。 读取HDFS需要使用org.apache.ha
阅读全文
摘要:Hadoop 作为大数据的主要支撑技术之一,被广泛使用。那何为hadoop了? 节选维基上的解释如下(其基本和官方定义差不多), Apache Hadoop是一款支持数据密集型分布式应用程序并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoo
阅读全文