海量数据处理 - 随笔分类 - java20130722

编译hive 出错及修改

2013-01-10 16:03 by java20130722, 212 阅读, 收藏,

摘要：最近在研究hadoop ，在使用ant clean编译hive源码的时候报出了如下的错误：[exec] Makefile:138: *** *************因为make-3.81版、make-3.82.90版在windows下的bug，可以下载make-3.82版本于是上了make的官网：http://www.gnu.org/software/make/下载了make-3.82版本：http://ftp.gnu.org/gnu/make/make-3.82.tar.bz2解压make-3.82 ，进入文件夹中，然后创建bat文件内容如下：@ECHO OFFSET CYGWIN_RO. 阅读全文

0 Comment

编译hadoop源码遇到问题及时解决

2013-01-10 13:58 by java20130722, 896 阅读, 收藏,

摘要：最近在研究hadoop，在用maven编译源码的过程中出现了个错误，一直编译过不去：[INFO] ------------------------------------------------------------------------[INFO] BUILD FAILURE[INFO] ------------------------------------------------------------------------[INFO] Total time: 3:58.734s[INFO] Finished at: Tue Jan 08 18:39:18 CST 2013[INF 阅读全文

0 Comment

海量数据处理面试题及解决方法

2012-09-29 11:26 by java20130722, 463 阅读, 收藏,

摘要：第一部分、十道海量数据处理面试题 1、海量日志数据，提取出某日访问百度次数最多的那个IP。此题，在我之前的一篇文章算法里头有所提到，当时给出的方案是：IP的数目还是有限的，最多2^32个，所以可以考虑使用hash将ip直接存入内存，然后进行统计。再详细介绍下此方案：首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP（可以采用hash_map进行频率统计，然后再找出频率最大的几个）及相应的频率。然后再在这10... 阅读全文

0 Comment

java20130722

随笔分类 - 海量数据处理

编译hive 出错及修改

编译hadoop源码遇到问题及时解决

海量数据处理面试题及解决方法

About

java20130722

随笔分类 - 海量数据处理

编译hive 出错 及修改

编译hadoop源码遇到问题 及时解决

海量数据处理面试题及解决方法

About

编译hive 出错及修改

编译hadoop源码遇到问题及时解决