随笔分类 - Hadoop
摘要:commons-pool和commons-pool2是用来建立对象池的框架,提供了一些将对象池化必须要实现的接口和一些默认动作。对象池化之后可以通过pool的概念去管理其生命周期,例如对象的创建,使用,销毁等。例如我们通常使用的连接池,连接池可以有效管理连接的数量和状态,保证连接资源的情况而且避免并
阅读全文
摘要:本文介绍使用hdfs java api的配置方法。 1、先解决依赖,pom 2、配置文件,存放hdfs集群配置信息,基本都是来源于core-site.xml和hdfs-site.xml,可以根据hdfs集群client端配置文件里的信息进行填写 3、java client api 4、configu
阅读全文
摘要:1、dirver 2、Mapper 3、Reducer 4、propertyUtil 5、配置
阅读全文
摘要:大数据团队搞数据质量评测。自动化质检和监控平台是用django,MR也是通过python实现的。(后来发现有orc压缩问题,python不知道怎么解决,正在改成java版本) 这里展示一个python编写MR的例子吧。 抄一句话:Hadoop Streaming是Hadoop提供的一个编程工具,它允
阅读全文

浙公网安备 33010602011771号