摘要:
第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法, 比如模1000,把整个大文件映射为1000个小文件,再找出每个小文 阅读全文
posted @ 2016-10-10 22:17
thinker1017
阅读(1142)
评论(0)
推荐(0)
摘要:
一篇不错的介绍HBase基本原理的文章,转载自:http://www.sysdb.cn/index.php/2016/01/10/hbase_principle/ ,感谢原作者。 简介 HBase —— Hadoop Database的简称,Google BigTable的另一种开源实现方式,从问世 阅读全文
posted @ 2016-10-10 22:15
thinker1017
阅读(405)
评论(0)
推荐(0)
摘要:
说明 这篇文章是来自Hadoop Hive UDAF Tutorial - Extending Hive with Aggregation Functions:的不严格翻译,因为翻译的文章示例写得比较通俗易懂,此外,我把自己对于Hive的UDAF理解穿插到文章里面。 udfa是hive中用户自定义的 阅读全文
posted @ 2016-10-10 22:07
thinker1017
阅读(1019)
评论(0)
推荐(0)
摘要:
在这篇文章中,我们将深入了解用户定义表函数(UDTF),该函数的实现是通过继承org.apache.Hadoop.hive.ql.udf.generic.GenericUDTF这个抽象通用类,UDTF相对UDF更为复杂,但是通过它,我们读入一个数据域,输出多行多列,而UDF只能输出单行单列。 在这篇 阅读全文
posted @ 2016-10-10 22:05
thinker1017
阅读(6565)
评论(0)
推荐(1)
摘要:
编写Apache Hive用户自定义函数(UDF)有两个不同的接口,一个非常简单,另一个...就相对复杂点。 编写Apache Hive用户自定义函数(UDF)有两个不同的接口,一个非常简单,另一个...就相对复杂点。 如果你的函数读和返回都是基础数据类型(Hadoop&Hive 基本writabl 阅读全文
posted @ 2016-10-10 22:04
thinker1017
阅读(23391)
评论(0)
推荐(6)
摘要:
hive在跑数据时经常会出现数据倾斜的情况,使的作业经常reduce完成在99%后一直卡住,最后的1%花了几个小时都没跑完,这种情况就很可能是数据倾斜的原因,解决方法要根据具体情况来选择具体的方案 1、join的key值发生倾斜,key值包含很多空值或是异常值 这种情况可以对异常值赋一个随机值来分散 阅读全文
posted @ 2016-10-10 21:38
thinker1017
阅读(1847)
评论(0)
推荐(0)
摘要:
Hive的分析函数又叫窗口函数,在oracle中就有这样的分析函数,主要用来做数据统计分析的。 Hive的分析函数又叫窗口函数,在oracle中就有这样的分析函数,主要用来做数据统计分析的。 Lag和Lead分析函数可以在同一次查询中取出同一字段的前N行的数据(Lag)和后N行的数据(Lead)作为 阅读全文
posted @ 2016-10-10 21:20
thinker1017
阅读(1228)
评论(0)
推荐(0)
浙公网安备 33010602011771号