随笔分类 -  大数据

摘要:nodemanager/ratio yarn.nodemanager.resource.memory-mb 集群中某个计算节点分配给nodemanager的最大可用内存,这个最大可用内存不是该节点最大内存,而是该节点最大内存划分出来的给nodemanager使用的内存, 该配置项在集群启动后,无法动 阅读全文
posted @ 2021-04-26 09:56 贻我高矩 阅读(2376) 评论(0) 推荐(0)
摘要:2019年的一篇旧文,内容中涉及版本相对陈旧,分享出来希望对大家有所帮助。 1. Atlas简介 简单说明一下元数据管理的重要性,做数仓的时候,自然就会有很多报表,当你有几百个报表,几千张表的时候,现在有个需求需要修改一个表,然后有人问你,修改这个表会影响哪些报表? 如果你仅仅凭借记忆是完全不可行的 阅读全文
posted @ 2021-01-20 17:12 贻我高矩 阅读(1716) 评论(0) 推荐(0)
摘要:业界流行的大数据权限管理框架Apache Sentry和Ranger。二者在功能上具有很高的相似性,但是在具体细节上上篇文章阐述的还不够细致。本文笔者来深入浅出地聊聊这两个框架,以及它们的少许异同点。熟悉掌握使用外部权限管理框架,并且将它们合理地应用于自身内部大数据组件系统内,无疑将会大大提高内部组件使用的安全性。 阅读全文
posted @ 2020-12-03 19:22 贻我高矩 阅读(1043) 评论(0) 推荐(0)
摘要:编译过程漫长无比,错误百出,需要耐心耐心!! 1.准备的环境及软件 操作系统:Centos6.4 64位 jdk:jdk-7u80-linux-x64.rpm,不要使用1.8 maven:apache-maven-3.3.3-bin.tar.gz protobuf:protobuf-2.5.0.ta 阅读全文
posted @ 2016-01-16 23:12 贻我高矩 阅读(402) 评论(0) 推荐(0)
摘要:日志聚合是YARN提供的日志中央化管理功能,它能将运行完成的Container/任务日志上传到HDFS上,从而减轻NodeManager负载,且提供一个中央化存储和分析机制。默认情况下,Container/任务日志存在在各个NodeManager上,如果启用日志聚合功能需要额外的配置。 参数配置ya 阅读全文
posted @ 2016-01-14 21:47 贻我高矩 阅读(11966) 评论(1) 推荐(2)