摘要:
最近在研究hadoop ,在使用ant clean编译hive源码的时候报出了如下的错误:[exec] Makefile:138: *** *************因为make-3.81版、make-3.82.90版在windows下的bug,可以下载make-3.82版本于是上了make的官网:http://www.gnu.org/software/make/下载了make-3.82版本:http://ftp.gnu.org/gnu/make/make-3.82.tar.bz2解压make-3.82 ,进入文件夹中,然后创建bat文件内容如下:@ECHO OFFSET CYGWIN_RO. 阅读全文
随笔分类 - 海量数据处理
编译hadoop源码遇到问题 及时解决
2013-01-10 13:58 by java20130722, 895 阅读, 收藏,
摘要:
最近在研究hadoop,在用maven编译源码的过程中出现了个错误,一直编译过不去:[INFO] ------------------------------------------------------------------------[INFO] BUILD FAILURE[INFO] ------------------------------------------------------------------------[INFO] Total time: 3:58.734s[INFO] Finished at: Tue Jan 08 18:39:18 CST 2013[INF 阅读全文
海量数据处理面试题及解决方法
2012-09-29 11:26 by java20130722, 459 阅读, 收藏,
摘要:
第一部分、十道海量数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 此题,在我之前的一篇文章算法里头有所提到,当时给出的方案是:IP的数目还是有限的,最多2^32个,所以可以考虑使用hash将ip直接存入内存,然后进行统计。 再详细介绍下此方案:首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这10... 阅读全文
浙公网安备 33010602011771号