摘要:HBase2.2.4是截止2020-08-03官方最新的Stable版本,因为做了snappy压缩,但是还未升级到生产环境,需要在测试环境先测试压缩效果的同时也需要测试读写性能 YCSB-0.17.0压测HBase,这个工具不多介绍了,雅虎开源的专门压测NoSQL数据库的 ycsb-0.17.0下载 阅读全文
posted @ 2020-08-03 23:26 wen1995 阅读(4) 评论(0) 推荐(0) 编辑
摘要:HBase支持snappy的前提是hadoop支持snappy,所以需要先从底层,从hadoop开始添加snappy 安装Snappy本地库: 下载snappy: hadoop@hadoop1$ wget https://src.fedoraproject.org/repo/pkgs/snappy/ 阅读全文
posted @ 2020-08-03 01:08 wen1995 阅读(13) 评论(0) 推荐(0) 编辑
摘要:Hadoop原生的计算框架MapReduce,简单概括一下:进程量级很重,启动很慢,但能承载的数据量很大,效率相较于Spark微批处理和Flink实时来讲很慢,Shuffle任何一个写MR同学都必须掌握的东西,说难不难,说简单也不简单 MapReduce程序的五个阶段: input map shuf 阅读全文
posted @ 2020-07-15 13:37 wen1995 阅读(16) 评论(0) 推荐(0) 编辑
摘要:这个事情的背景是公司的Hadoop生态集群都是原生的,不是基于CDH的,所以基本所有的东西都需要自己手动管理,比如集群修改一些属性,然后批量分发重启或者动态生效之类的。这次也算不上事故,因为没对生产环境造成什么影响,但是差一点就变成事故,写出来分享一下。 事情简单概括就是,60+台hadoop的集群 阅读全文
posted @ 2020-07-14 12:15 wen1995 阅读(18) 评论(0) 推荐(0) 编辑
摘要:Kafka吞吐量大,延迟低,高可用,都是怎么实现的?废话不多说,往下看 关于kafka的基础概念相关的问题比如基本的架构原理,搭建等等我就不讲了,我讲一些比这些稍微底层一点的东西,有大牛发现不当之处请评论区指正 1. 高吞吐,低延迟的实现 应该先讲低延迟,如果延迟高的话吞吐量是上不去的。低延迟的实现 阅读全文
posted @ 2020-07-13 22:08 wen1995 阅读(7) 评论(0) 推荐(0) 编辑
摘要:hadoop生产环境的使用是很复杂的,有些公司是CDH或者Ambari等管理工具运维的,有些是原生的集群俗称裸奔,前者优缺点是运维,查看监控等容易,对于底层理解不友好;裸奔集群反之,裸奔集群的很多东西都需要定制和自己开发,比如监控用zabbix,告警用企业微信,节点的异构严重的,需要二次开发配置文件 阅读全文
posted @ 2020-07-13 12:54 wen1995 阅读(115) 评论(0) 推荐(0) 编辑
摘要:先默认你已经装好了Hive,我之前连接失败主要是缺最后一条配置,具体配置如下: 1 <?xml version="1.0"?> 2 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 3 <configuration> 4 <pro 阅读全文
posted @ 2020-07-07 16:45 wen1995 阅读(39) 评论(0) 推荐(1) 编辑