摘要: Hadoop原生的计算框架MapReduce,简单概括一下:进程量级很重,启动很慢,但能承载的数据量很大,效率相较于Spark微批处理和Flink实时来讲很慢,Shuffle任何一个写MR同学都必须掌握的东西,说难不难,说简单也不简单 MapReduce程序的五个阶段: input map shuf 阅读全文
posted @ 2020-07-15 13:37 wen1995 阅读(302) 评论(0) 推荐(0) 编辑
摘要: 这个事情的背景是公司的Hadoop生态集群都是原生的,不是基于CDH的,所以基本所有的东西都需要自己手动管理,比如集群修改一些属性,然后批量分发重启或者动态生效之类的。这次也算不上事故,因为没对生产环境造成什么影响,但是差一点就变成事故,写出来分享一下。 事情简单概括就是,60+台hadoop的集群 阅读全文
posted @ 2020-07-14 12:15 wen1995 阅读(478) 评论(0) 推荐(0) 编辑
摘要: Kafka吞吐量大,延迟低,高可用,都是怎么实现的?废话不多说,往下看 关于kafka的基础概念相关的问题比如基本的架构原理,搭建等等我就不讲了,我讲一些比这些稍微底层一点的东西,有大牛发现不当之处请评论区指正 1. 高吞吐,低延迟的实现 应该先讲低延迟,如果延迟高的话吞吐量是上不去的。低延迟的实现 阅读全文
posted @ 2020-07-13 22:08 wen1995 阅读(159) 评论(0) 推荐(0) 编辑
摘要: hadoop生产环境的使用是很复杂的,有些公司是CDH或者Ambari等管理工具运维的,有些是原生的集群俗称裸奔,前者优缺点是运维,查看监控等容易,对于底层理解不友好;裸奔集群反之,裸奔集群的很多东西都需要定制和自己开发,比如监控用zabbix,告警用企业微信,节点的异构严重的,需要二次开发配置文件 阅读全文
posted @ 2020-07-13 12:54 wen1995 阅读(613) 评论(0) 推荐(0) 编辑
摘要: 先默认你已经装好了Hive,我之前连接失败主要是缺最后一条配置,具体配置如下: 1 <?xml version="1.0"?> 2 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 3 <configuration> 4 <pro 阅读全文
posted @ 2020-07-07 16:45 wen1995 阅读(919) 评论(0) 推荐(1) 编辑