随笔分类 -  大数据

摘要:1. 获取源代码 $ svn co http://svn.apache.org/repos/asf/hive/trunk hive $ cd hive2. 修改源代码可通过log类打印调试信息,也可以直接使用System.err.println。3. 编译 $ ant package完成编译后,会生成build目录,里面包含所有编译完的class,同时包含了一个dist目录,里面拷贝了bin,conf等目录。 阅读全文
posted @ 2013-05-30 10:17 simon1024 阅读(726) 评论(0) 推荐(1)
摘要:1. order byset hive.mapred.mode=nonstrict; (default value / 默认值)set hive.mapred.mode=strict;order by 和数据库中的Order by 功能一致,按照某一项 & 几项 排序输出。与数据库中 order by 的区别在于在hive.mapred.mode = strict 模式下 必须指定 limit 否则执行会报错。hive> select * from test order by id; FAILED: Error in semantic analysis: 1:28 In stri 阅读全文
posted @ 2013-05-28 15:52 simon1024 阅读(219) 评论(0) 推荐(0)
摘要:刚开始学习Hadoop,不断遇到新问题,以后把遇到的新问题给记下来。有时候大家会看到以下的信息,这表示没连上hdfs。ximo@ubuntu:~$ hadoop fs -ls11/11/08 10:59:32 INFO ipc.Client: Retrying connect to server: localhost/127.0.0.1:8020. Already tried 0 time(s).11/11/08 10:59:33 INFO ipc.Client: Retrying connect to server: localhost/127.0.0.1:8020. Already tri 阅读全文
posted @ 2013-05-27 15:14 simon1024 阅读(3209) 评论(0) 推荐(0)
摘要:日志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核、各种应用服务器等等。日志的内容、规模和用途也各不相同,很难一概而论。本文讨论的日志处理方法中的日志,仅指Web日志。其实并没有精确的定义,可能包括但不限于各种前端Web服务器——apache、lighttpd、tomcat等产生的用户访问日志,以及各种Web应用程序自己输出的日志。在Web日志中,每条日志通常代表着用户的一次访问行为,例如下面就是一条典型的apache日志:211.87.152.44–-[18/Mar/2005:12:21:42+0800]“GET/HTTP/1.1″200899“http://ww 阅读全文
posted @ 2013-05-23 17:53 simon1024 阅读(235) 评论(0) 推荐(0)
摘要:作者:July、youwang、yanxionglu。时间:二零一一年三月二十六日说明:本文分为俩部分,第一部分为10道海量数据处理的面试题,第二部分为10个海量数据处理的方法总结。有任何问题,欢迎交流、指正。出处:http://blog.csdn.net/v_JULY_v。第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以 阅读全文
posted @ 2013-05-23 15:23 simon1024 阅读(468) 评论(0) 推荐(0)
摘要:作者:July、youwang、yanxionglu。时间:二零一一年三月二十六日说明:本文分为俩部分,第一部分为10道海量数据处理的面试题,第二部分为10个海量数据处理的方法总结。有任何问题,欢迎交流、指正。出处:http://blog.csdn.net/v_JULY_v。第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以 阅读全文
posted @ 2013-05-19 18:46 simon1024 阅读(9648) 评论(0) 推荐(3)
摘要:转自:http://blog.csdn.net/qibaoyuan/article/details/5914746代码实现:通过mod操作将指定数i映射到bitmap[i/32]的第imod32(从0开始)位。bitmap的基本操作: 1 #include <stdio.h> 2 #include <stdlib.h> 3 #define WORD 32 4 #define SHIFT 5 ////移动5个位,左移则相当于乘以32,右移相当于除以32取整 5 #define MASK 0x1F //16进制下的31 6 #define N 10000000 7 /* 8 阅读全文
posted @ 2013-05-19 17:54 simon1024 阅读(935) 评论(0) 推荐(0)