thinker1017 - 博客园

2016年10月23日

摘要： 2、数据去重问题原始数据txt1： 2012-3-1 a2012-3-1 b2012-3-2 a2012-3-2 b2012-3-3 b2012-3-3 c2012-3-4 d2012-3-5 a2012-3-6 b2012-3-6 c2012-3-7 c2012-3-7 d 3、数据排序数据输阅读全文

posted @ 2016-10-23 17:04 thinker1017 阅读(1459) 评论(0) 推荐(1)

2016年10月22日

IntelliJ IDEA构建scala的Maven项目

摘要：测试阅读全文

posted @ 2016-10-22 12:00 thinker1017 阅读(171) 评论(0) 推荐(0)

2016年10月18日

Flume-NG源码分析-整体结构及配置载入分析

摘要：在 http://flume.apache.org 上下载flume-1.6.0版本，将源码导入到Idea开发工具后如下图所示：一、主要模块说明 flume-ng-channels 里面包含了filechannel，jdbcchannel，kafkachannel,memorychannel通道的阅读全文

posted @ 2016-10-18 22:51 thinker1017 阅读(1663) 评论(0) 推荐(0)

Flume之核心架构深入解析

摘要：我们一起来了解Source、Channel和Sink的全链路过程。一、Flume架构分析这个图中核心的组件是： Source，ChannelProcessor，Channel，Sink。他们的关系结构如下： Source { ChannelProcessor { Channel ch1 Chan 阅读全文

posted @ 2016-10-18 22:47 thinker1017 阅读(2242) 评论(0) 推荐(0)

2016年10月11日

使用maven构建scala项目

摘要： eclipse安装scala插件和m2e-scala并不是支持的很好，因此使用maven创建scala工程的时候，IDEA可谓是最好的开发利器。 1. 创建工程之前的准备 2. IDEA界面创建Scala的Maven项目创建工程之前的准备 IntelliJ IDEA Scala plugin fo 阅读全文

posted @ 2016-10-11 23:24 thinker1017 阅读(11735) 评论(1) 推荐(0)

2016年10月10日

大数据的一些面试题

摘要：第一部分、十道海量数据处理面试题1、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文阅读全文

posted @ 2016-10-10 22:17 thinker1017 阅读(1145) 评论(0) 推荐(0)

HBase原理和设计

摘要：一篇不错的介绍HBase基本原理的文章，转载自：http://www.sysdb.cn/index.php/2016/01/10/hbase_principle/ ，感谢原作者。简介 HBase —— Hadoop Database的简称，Google BigTable的另一种开源实现方式，从问世阅读全文

posted @ 2016-10-10 22:15 thinker1017 阅读(405) 评论(0) 推荐(0)

Hive UDAF开发详解

摘要：说明这篇文章是来自Hadoop Hive UDAF Tutorial - Extending Hive with Aggregation Functions：的不严格翻译，因为翻译的文章示例写得比较通俗易懂，此外，我把自己对于Hive的UDAF理解穿插到文章里面。 udfa是hive中用户自定义的阅读全文

posted @ 2016-10-10 22:07 thinker1017 阅读(1019) 评论(0) 推荐(0)

Hive UDTF开发指南

摘要：在这篇文章中，我们将深入了解用户定义表函数（UDTF），该函数的实现是通过继承org.apache.Hadoop.hive.ql.udf.generic.GenericUDTF这个抽象通用类，UDTF相对UDF更为复杂，但是通过它，我们读入一个数据域，输出多行多列，而UDF只能输出单行单列。在这篇阅读全文

posted @ 2016-10-10 22:05 thinker1017 阅读(6569) 评论(0) 推荐(1)

Hive UDF开发指南

摘要：编写Apache Hive用户自定义函数（UDF）有两个不同的接口，一个非常简单，另一个...就相对复杂点。编写Apache Hive用户自定义函数（UDF）有两个不同的接口，一个非常简单，另一个...就相对复杂点。如果你的函数读和返回都是基础数据类型（Hadoop&Hive 基本writabl 阅读全文

posted @ 2016-10-10 22:04 thinker1017 阅读(23400) 评论(0) 推荐(6)

公告