摘要:
jobConf.setInputFormat(MyInputFormat. class ); InputFormat: TextInputFormat:用于读取纯文本文件,文件被分为一系列以LF或CR结束的行,key是每一行的偏移量(LongWritable),value是每一行的内容(Text)。... 阅读全文
摘要:
Mapper类4个函数的解析 Mapper有setup(),map(),cleanup()和run()四个方法。其中setup()一般是用来进行一些map()前的准备工作,map()则一般承担主要的处理工作,cleanup()则是收尾工作如关闭文件或者执行map()后的K-V分发等。run()方... 阅读全文
摘要:
1、jar包有入口(即有main()函数)选中要打包的工程--->右键选择Export---->java----->Runnable java file----->next---->在launch configuration输入jar包入口,即该工程要打包的主函数文件----->Export des... 阅读全文
摘要:
启动eclipse:打开windows->open perspective->other->map/reduce 可以看到map/reduce开发视图。设置Hadoop location. 打开windows->show view->other-> map/reduce Locations视图,在... 阅读全文
摘要:
1.在hadoop所在目录“usr/local”下创建一个文件夹inputroot@ubuntu:/usr/local# mkdir input2.在文件夹input中创建两个文本文件file1.txt和file2.txt,file1.txt中内容是“hello word”,file2.txt中内容... 阅读全文
摘要:
1 批量启动与停止1.1 Start-all.sh# Start all hadoop daemons. Run this on master node.bin=`dirname "$0"`bin=`cd "$bin"; pwd`#变量配置命令. "$bin"/hadoop-config.sh#Df... 阅读全文
摘要:
当要在进程间传递对象或持久化对象的时候,就需要序列化对象成字节流,反之当要将接收到或从磁盘读取的字节流转换为对象,就要进行反序列化。Writable是Hadoop的序列化格式,Hadoop定义了这样一个Writable接口。 [html] view plaincopyprint? public in 阅读全文
摘要:
StringTokenizer是一个用来分隔String字符串的应用类。1.构造函数public StringTokenizer(String str) //构造一个用来解析str的StringTokenizer对象。java默认的分隔符是“空格”、“制表符(‘\t’)”、“换行符(‘\n’)”、“... 阅读全文