摘要: 2、数据去重问题 原始数据txt1: 2012-3-1 a2012-3-1 b2012-3-2 a2012-3-2 b2012-3-3 b2012-3-3 c2012-3-4 d2012-3-5 a2012-3-6 b2012-3-6 c2012-3-7 c2012-3-7 d 3、数据排序 数据输 阅读全文
posted @ 2016-10-23 17:04 thinker1017 阅读(1458) 评论(0) 推荐(1)
摘要: 测试 阅读全文
posted @ 2016-10-22 12:00 thinker1017 阅读(170) 评论(0) 推荐(0)
摘要: 在 http://flume.apache.org 上下载flume-1.6.0版本,将源码导入到Idea开发工具后如下图所示: 一、主要模块说明 flume-ng-channels 里面包含了filechannel,jdbcchannel,kafkachannel,memorychannel通道的 阅读全文
posted @ 2016-10-18 22:51 thinker1017 阅读(1650) 评论(0) 推荐(0)
摘要: 我们一起来了解Source、Channel和Sink的全链路过程。 一、Flume架构分析 这个图中核心的组件是: Source,ChannelProcessor,Channel,Sink。他们的关系结构如下: Source { ChannelProcessor { Channel ch1 Chan 阅读全文
posted @ 2016-10-18 22:47 thinker1017 阅读(2237) 评论(0) 推荐(0)
摘要: eclipse安装scala插件和m2e-scala并不是支持的很好,因此使用maven创建scala工程的时候,IDEA可谓是最好的开发利器。 1. 创建工程之前的准备 2. IDEA界面创建Scala的Maven项目 创建工程之前的准备 IntelliJ IDEA Scala plugin fo 阅读全文
posted @ 2016-10-11 23:24 thinker1017 阅读(11733) 评论(1) 推荐(0)
摘要: 第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法, 比如模1000,把整个大文件映射为1000个小文件,再找出每个小文 阅读全文
posted @ 2016-10-10 22:17 thinker1017 阅读(1142) 评论(0) 推荐(0)
摘要: 一篇不错的介绍HBase基本原理的文章,转载自:http://www.sysdb.cn/index.php/2016/01/10/hbase_principle/ ,感谢原作者。 简介 HBase —— Hadoop Database的简称,Google BigTable的另一种开源实现方式,从问世 阅读全文
posted @ 2016-10-10 22:15 thinker1017 阅读(405) 评论(0) 推荐(0)
摘要: 说明 这篇文章是来自Hadoop Hive UDAF Tutorial - Extending Hive with Aggregation Functions:的不严格翻译,因为翻译的文章示例写得比较通俗易懂,此外,我把自己对于Hive的UDAF理解穿插到文章里面。 udfa是hive中用户自定义的 阅读全文
posted @ 2016-10-10 22:07 thinker1017 阅读(1019) 评论(0) 推荐(0)
摘要: 在这篇文章中,我们将深入了解用户定义表函数(UDTF),该函数的实现是通过继承org.apache.Hadoop.hive.ql.udf.generic.GenericUDTF这个抽象通用类,UDTF相对UDF更为复杂,但是通过它,我们读入一个数据域,输出多行多列,而UDF只能输出单行单列。 在这篇 阅读全文
posted @ 2016-10-10 22:05 thinker1017 阅读(6565) 评论(0) 推荐(1)
摘要: 编写Apache Hive用户自定义函数(UDF)有两个不同的接口,一个非常简单,另一个...就相对复杂点。 编写Apache Hive用户自定义函数(UDF)有两个不同的接口,一个非常简单,另一个...就相对复杂点。 如果你的函数读和返回都是基础数据类型(Hadoop&Hive 基本writabl 阅读全文
posted @ 2016-10-10 22:04 thinker1017 阅读(23391) 评论(0) 推荐(6)