2016 年 10月 10 日随笔档案 - thinker1017

2016年10月10日

摘要：第一部分、十道海量数据处理面试题1、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文阅读全文

posted @ 2016-10-10 22:17 thinker1017 阅读(1145) 评论(0) 推荐(0)

HBase原理和设计

摘要：一篇不错的介绍HBase基本原理的文章，转载自：http://www.sysdb.cn/index.php/2016/01/10/hbase_principle/ ，感谢原作者。简介 HBase —— Hadoop Database的简称，Google BigTable的另一种开源实现方式，从问世阅读全文

posted @ 2016-10-10 22:15 thinker1017 阅读(405) 评论(0) 推荐(0)

Hive UDAF开发详解

摘要：说明这篇文章是来自Hadoop Hive UDAF Tutorial - Extending Hive with Aggregation Functions：的不严格翻译，因为翻译的文章示例写得比较通俗易懂，此外，我把自己对于Hive的UDAF理解穿插到文章里面。 udfa是hive中用户自定义的阅读全文

posted @ 2016-10-10 22:07 thinker1017 阅读(1019) 评论(0) 推荐(0)

Hive UDTF开发指南

摘要：在这篇文章中，我们将深入了解用户定义表函数（UDTF），该函数的实现是通过继承org.apache.Hadoop.hive.ql.udf.generic.GenericUDTF这个抽象通用类，UDTF相对UDF更为复杂，但是通过它，我们读入一个数据域，输出多行多列，而UDF只能输出单行单列。在这篇阅读全文

posted @ 2016-10-10 22:05 thinker1017 阅读(6569) 评论(0) 推荐(1)

Hive UDF开发指南

摘要：编写Apache Hive用户自定义函数（UDF）有两个不同的接口，一个非常简单，另一个...就相对复杂点。编写Apache Hive用户自定义函数（UDF）有两个不同的接口，一个非常简单，另一个...就相对复杂点。如果你的函数读和返回都是基础数据类型（Hadoop&Hive 基本writabl 阅读全文

posted @ 2016-10-10 22:04 thinker1017 阅读(23401) 评论(0) 推荐(6)

hive-数据倾斜解决方法

摘要： hive在跑数据时经常会出现数据倾斜的情况，使的作业经常reduce完成在99%后一直卡住，最后的１%花了几个小时都没跑完，这种情况就很可能是数据倾斜的原因，解决方法要根据具体情况来选择具体的方案１、join的key值发生倾斜，key值包含很多空值或是异常值这种情况可以对异常值赋一个随机值来分散阅读全文

posted @ 2016-10-10 21:38 thinker1017 阅读(1852) 评论(0) 推荐(0)

Hive 分析函数lead、lag实例应用

摘要： Hive的分析函数又叫窗口函数，在oracle中就有这样的分析函数，主要用来做数据统计分析的。 Hive的分析函数又叫窗口函数，在oracle中就有这样的分析函数，主要用来做数据统计分析的。 Lag和Lead分析函数可以在同一次查询中取出同一字段的前N行的数据(Lag)和后N行的数据(Lead)作为阅读全文

posted @ 2016-10-10 21:20 thinker1017 阅读(1241) 评论(0) 推荐(0)

公告