摘要: 有时可能需要对来自不同源的数据进行综合分析:如下例子:有Customers文件,每个记录3个域:Custom ID, Name, Phone Number Customers Orders 1,Stephanie Leung,555-555-5555 3,A,12.95,02-Jun-2008 2,Edward Kim,123-456-7890 1,B,88.25,20-May-2008 3,Jose Madriz,281-330-8004 2,C,32.00,30-Nov-2007 4,David Stork,408-555-0000 3,D,25.02,22-Ja... 阅读全文
posted @ 2013-03-01 12:37 dandingyy 阅读(1584) 评论(0) 推荐(0) 编辑
摘要: 1.streaming的作用Haoop支持用其他语言来编程,需要用到名为Streaming的通用API。Streaming主要用于编写简单,短小的MapReduce程序,可以通过脚本语言编程,开发更快捷,并充分利用非Java库。HadoopStreaming使用Unix中的流与程序交互,从stdin输入数据,从stdout输出数据。实际上可以用任何命令作为mapper和reducer。数据流示意如下: cat [intput_file] | [mapper] | sort | [reducer] > [output_file]2.使用方法使用如下命令: hadoop jar contri 阅读全文
posted @ 2013-03-01 12:27 dandingyy 阅读(13199) 评论(0) 推荐(0) 编辑
摘要: 第一次使用hadoop,另外eclipse也不太熟悉,现在把自己在安装过程中得琐碎问题记录下来。eclipse版本:eclipse-jee-indigo-SR2-linux-gtk.tar.gzhadoop版本:hadoop-0.20.203.0本文前提是,你已经正确安装了hadoop-0.20.203.0,hadoop伪分布模式的安装过程网上有很多。eclipse下载解压后,直接点击eclipse图标打开即可(很绿色环保~~)1.插件安装 在$HADOOP_HOME/contrib/eclipse-plugin/文件夹中有个hadoop-eclipse-plugin-0.20.203.0.j 阅读全文
posted @ 2013-03-01 12:19 dandingyy 阅读(26006) 评论(0) 推荐(0) 编辑
摘要: 以前在csdn写过博客,现在又有在博客园写了,想把两个合在一起博客地址:http://blog.csdn.net/dandingyy 阅读全文
posted @ 2013-03-01 10:30 dandingyy 阅读(131) 评论(0) 推荐(0) 编辑
摘要: 1.单个文件的压缩或解压import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;import java.io.OutputStream;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io 阅读全文
posted @ 2013-03-01 10:25 dandingyy 阅读(3151) 评论(0) 推荐(0) 编辑