随笔分类 -  Hadoop

HDFS学习总结
摘要:一、HDFS特点 HDFS具有高容错性的特点,可以部署到廉价硬件上。同时提供了高吞吐量的特性,适合与有超大数据集的应用程序。HDFS降低了对POSIX的要求,即可实现通过流的形式访问文件系统中数据。tips: POSIX(Partable Operation System Interface),可... 阅读全文
posted @ 2015-12-19 15:01 成长中的蒲公英 阅读(2147) 评论(0) 推荐(0)
mapreduce工作原理
摘要:MapReduce模型主要包含Mapper类和Reducer类两个抽象类。Mapper类主要负责对数据的分析处理,最终转化为key-value数据对;Reducer类主要获取key-value数据对,然后处理统计,得到结果。MapReduce实现了存储的均衡,但没有实现计算的均衡。一. MapR... 阅读全文
posted @ 2015-12-17 22:42 成长中的蒲公英 阅读(8865) 评论(0) 推荐(0)
mapreduce程序调用各个类的功能
摘要:1、map类 map类继承了库类中的Mapper,即Mapper。通常map类中会重写map方法,map每次只接受一个key-value,然后对其进行预处理,再分发出处理后的数据。其map方法为:protected void map(Object key, Value value, Context... 阅读全文
posted @ 2015-12-16 22:53 成长中的蒲公英 阅读(2155) 评论(0) 推荐(0)
mapreduce代码实现入门
摘要:mapreduce代码主要包括三个类,map类、reduce类以及测试类!以wordcount为例,map类为: static class WordMapper extends Mapper{ private final static IntWritable one = ne... 阅读全文
posted @ 2015-12-15 19:29 成长中的蒲公英 阅读(515) 评论(0) 推荐(0)
linux环境tomcat配置及hadoop 2.6伪分布模式安装配置
摘要:一、ubuntu 15.04、openjdk1.7、tomcat7环境配置1. 配置openjdk1.7,输入命令:sudo apt-get install openjdk-7-jdk2. 查看java是否安装成功,输入命令:envjava -version3. 查看jdk真实安装路径,如果是解压安... 阅读全文
posted @ 2015-12-07 21:01 成长中的蒲公英 阅读(914) 评论(0) 推荐(0)