随笔分类 - ● Hadoop
摘要:生产环境(cdh5.5.1)遇到一个问题:已经设置 dfs.datanode.du.reserved预留空间为20G,但是磁盘仍然被写满了。当挂载磁盘作为datanode的存储空间,如果磁盘大小为2000G,使用df -h 显示:总磁盘大小2000G,使用1930G,...
阅读全文
摘要:打算对新建的hadoop集群使用管理工具,列了以下主要的不同点: 主要的不同点 apache Ambari ClouderaManager Express(免费版) 配置版本控制和历史记录 支持 不支持 二次开发 支持 不支持 集成 支持 ...
阅读全文
摘要:今天在网上找了很久,终于找到1个snappy压缩命令行,记录下来:1.wget https://bootstrap.pypa.io/get-pip.py2.python ./get-pip.py3.yum install gcc-c++4.pip install py...
阅读全文
摘要:1、Client 向 YARN 提交应用程序,其中包括 ApplicationMaster 程序及启动 ApplicationMaster 命令2、ResourceManager 为该 ApplicationMaster 分配第一个 Container,并与对应的 N...
阅读全文
摘要:修改的ranger ui的admin用户登录密码时,需要在ranger的配置里把admin_password改成一样的,否则hdfs的namenode在使用admin时启动不起来,异常如下:Traceback (most recent call last): Fil...
阅读全文
摘要:1.工具或者服务化平台。Hadoop基础套件的,像亚马逊云等2.数据统计分析。这一类主要是BI,既有企业自有产品,也有第三方产品3.数据交易。典型企业有数据堂,api接口的各公司4.数据挖掘。用户画像(标签:奶爸;户外达人),做广告,营销等5.报告或解决方案。做大数据...
阅读全文
摘要:由于想在项目中使用类似yarn的事件处理机制,就看了实现。主要是由Dispatcher.java,EventHandler.java,Service.java这3个类撑起来的。 在事件处理之前,先注册相应的事件处理handler,收到事件event后,由派发事件的Di...
阅读全文
摘要:1.修改dfs.datanode.max.transfer.threads = 4096 (如果运行hbase的话建议为16384),指定用于在DataNode间传输block数据的最大线程数,老版本的对应参数为dfs.datanode.max.xcievers ...
阅读全文
摘要:在hadoop测试集群运行job的过程中发现部分运行失败,有Cannot obtain block length for LocatedBlock,使用hdfs dfs -cat ${文件}的时候也报这个错,看过代码后发现是文件未被正常关闭(flume传到hdfs上的...
阅读全文
摘要:大数据安全规范 一、概述大数据的安全体系分为五个层次:周边安全、数据安全、访问安全(认证 - authentication和授权 - authorization)、访问行为可见、错误处理和异常管理。下面依次说明:1.周边安全技术即传统意义上提到的网络安全技术,如防...
阅读全文
摘要:如何确定Yarn中容器Container,Mapreduce相关参数的内存设置,对于初始集群,由于不知道集群的类型(如cpu密集、内存密集)我们需要根据经验提供给我们一个参考配置值,来作为基础的配置。完成这一任务有两种方式,确定YARN和MapReduce的内存设置,...
阅读全文
摘要:在hadoop集群启用权限控制后,发现job运行日志的ui访问不了, User [dr.who] is not authorized to view the logs for application原因 Resource Manager UI的默认用户dr.who权限...
阅读全文
摘要:关于reduce边join,其最重要的是使用MultipleInputs.addInputPath这个api对不同的表使用不同的Map,然后在每个Map里做一下该表的标识,最后到了Reduce端再根据标识区分对应的表!Reduce Side Join ExampleU...
阅读全文
摘要:AM Container for appattempt_1453292851883_0381_000002 exited with exitCode: -1000For more detailed output, check application tracking ...
阅读全文
摘要:org.apache.hadoop.hive.ql.metadata.HiveException: Unable to rename output from: hdfs://nameservice/user/hive/warehouse/om_dw.db/mac_wi...
阅读全文