摘要: hadoop命令的使用:Usage: hadoop [--config confdir] COMMAND 这里COMMAND为下列其中一个:<span style="font-size:16px;">namenode -format 格式化DFS文件系统 secondarynamenode 运行DFS的第二个namenode namenode 运行DFS的namenode datanode 运行一个DFS的datanode dfsadmin 运行一个DFS的adm... 阅读全文
posted @ 2013-03-08 20:17 dandingyy 阅读(4870) 评论(0) 推荐(0) 编辑
摘要: 有时可能需要对来自不同源的数据进行综合分析:如下例子:有Customers文件,每个记录3个域:Custom ID, Name, Phone Number Customers Orders 1,Stephanie Leung,555-555-5555 3,A,12.95,02-Jun-2008 2,Edward Kim,123-456-7890 1,B,88.25,20-May-2008 3,Jose Madriz,281-330-8004 2,C,32.00,30-Nov-2007 4,David Stork,408-555-0000 3,D,25.02,22-Ja... 阅读全文
posted @ 2013-03-01 12:37 dandingyy 阅读(1567) 评论(0) 推荐(0) 编辑
摘要: 1.streaming的作用Haoop支持用其他语言来编程,需要用到名为Streaming的通用API。Streaming主要用于编写简单,短小的MapReduce程序,可以通过脚本语言编程,开发更快捷,并充分利用非Java库。HadoopStreaming使用Unix中的流与程序交互,从stdin输入数据,从stdout输出数据。实际上可以用任何命令作为mapper和reducer。数据流示意如下: cat [intput_file] | [mapper] | sort | [reducer] > [output_file]2.使用方法使用如下命令: hadoop jar contri 阅读全文
posted @ 2013-03-01 12:27 dandingyy 阅读(13196) 评论(0) 推荐(0) 编辑
摘要: 第一次使用hadoop,另外eclipse也不太熟悉,现在把自己在安装过程中得琐碎问题记录下来。eclipse版本:eclipse-jee-indigo-SR2-linux-gtk.tar.gzhadoop版本:hadoop-0.20.203.0本文前提是,你已经正确安装了hadoop-0.20.203.0,hadoop伪分布模式的安装过程网上有很多。eclipse下载解压后,直接点击eclipse图标打开即可(很绿色环保~~)1.插件安装 在$HADOOP_HOME/contrib/eclipse-plugin/文件夹中有个hadoop-eclipse-plugin-0.20.203.0.j 阅读全文
posted @ 2013-03-01 12:19 dandingyy 阅读(26000) 评论(0) 推荐(0) 编辑
摘要: 以前在csdn写过博客,现在又有在博客园写了,想把两个合在一起博客地址:http://blog.csdn.net/dandingyy 阅读全文
posted @ 2013-03-01 10:30 dandingyy 阅读(131) 评论(0) 推荐(0) 编辑
摘要: 1.单个文件的压缩或解压import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;import java.io.OutputStream;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io 阅读全文
posted @ 2013-03-01 10:25 dandingyy 阅读(3151) 评论(0) 推荐(0) 编辑
摘要: 一个函数调用包括将数据(包括参数和返回值)和控制从代码一部分传到另一部分。还包括对函数内局部变量分配空间,并在退出时释放空间。 其中,转移控制到过程 和 从过程转移出控制——使用指令;局部变量的分配和释放通过 程序栈 来实现。1.栈帧结构 栈由高地址向低地址方向增长。对单个过程分配的栈称为 栈帧。以两个指针来界定:帧指针%ebp和栈指针%esp.栈指针是不断变化的,所以大多数信息基于帧指针%ebp.(注意在我的电脑上,帧指针是%esp,所以在汇编时总是由 movl 8(%esp) %eax来得到参数)。 从上图的栈帧结构中看到,假设P调用Q。P栈帧部分参数为传入Q的参数;P的返回地址形成P栈. 阅读全文
posted @ 2013-01-04 23:22 dandingyy 阅读(2854) 评论(0) 推荐(0) 编辑
摘要: 最近在看《深入理解计算机系统》,发现汇编挺有趣。1.条件分支:if语句下面是一个简单的ifelse函数:int absdiff(int x, int y){ if (x < y) return y - x; else return x - y;}对这个程序使用如下命令,得到汇编程序,(注意-S选项大写,并且始终用-O1优化选项)gcc -S ifelse.c -o ifelse.s –O1可以看到gcc对改程序的翻译与书上略有不同:pushl %ebx .cfi_def_cfa_offset 8 .cfi_offset 3, -8 movl 8(%esp... 阅读全文
posted @ 2013-01-03 14:36 dandingyy 阅读(3501) 评论(1) 推荐(0) 编辑
摘要: 转自: http://blog.csdn.net/morewindows/article/details/7481851一.过桥问题在漆黑的夜里,四位旅行者来到了一座狭窄而且没有护栏的桥边。如果不借助手电筒的话,大家是无论如何也不敢过桥去的。不幸的是,四个人一共只带了一只手电筒,而桥窄得只够让两个人同时通过。如果各自单独过桥的话,四人所需要的时间分别是1,2,5,8分钟;而如果两人同时过桥,所需要的时间就是走得比较慢的那个人单独行动时所需的时间。问题是,你如何设计一个方案,让用的时间最少。解答:这个题目的解答是 能者多劳——用时短的人返回传递手电筒。这时有两种情况都可能得到最短的时间。情况一: 阅读全文
posted @ 2012-12-26 17:25 dandingyy 阅读(476) 评论(0) 推荐(0) 编辑
摘要: 给定当前账户总数,后面列表为要取出的钱,然后以以下规则取钱:1)ATM机的最小单位为5,所以,只能取 那些被5整除的钱;2)每次取钱收取佣金为0.5+1%3)每次操作后余额向下取整 1 # Withdraw without any incident 2 # 120 - 10 - 0.5 - 1% = floor(109.4) = 109 3 # 109 - 20 - 0.5 - 1% = floor(88.3) = 88 4 # 88 - 30 - 0.5 - 1% = floor(57.2) = 57 5 from math import floor 6 def checkio(data). 阅读全文
posted @ 2012-11-14 11:45 dandingyy 阅读(506) 评论(0) 推荐(0) 编辑