Fork me on GitHub

随笔分类 -  hadoop

摘要:搭建起环境顺顺利利,你以为后面也会一帆风顺,想多了,该踩的坑肯定一个都不会少的让你一一体验的,所以还是进来先看看吧,方便下次一眼就能看出这些坑,然后迅速的把它们填满。 阅读全文
posted @ 2017-06-04 00:18 JackieZheng 阅读(7647) 评论(2) 推荐(1)
摘要:spark环境搭建篇:配置ssh免密登录以及遇到的坑,安装hadoop,scala以及下载安装spark,成功搭建spark伪分布式环境。 阅读全文
posted @ 2017-05-07 15:13 JackieZheng 阅读(31536) 评论(4) 推荐(5)
摘要:Hadoop RPC使用Java动态代理与反射实现对象调用方式,客户端到服务器数据的序列化与反序列化由Hadoop框架或用户自己来实现,也就是数据组装是定制的。这里介绍Hadoop RPC中采用的动态代理模式,同时介绍了另一种模式静态代理,通过案例比较两种模式的优劣以及模式本身存在的问题。 阅读全文
posted @ 2015-06-28 14:04 JackieZheng 阅读(1582) 评论(2) 推荐(0)
摘要:通过阅读Hadoop源码,针对org.apache.hadoop.conf和org.apache.hadoop.io包的部分类接口进行解读,主要包含了hadoop的资源配置类Configuration、hadoop的序列化机制、Writable的地位与继承实现关系、常用类解析等 阅读全文
posted @ 2015-02-10 23:13 JackieZheng 阅读(2273) 评论(0) 推荐(0)
摘要:主要介绍有关Hadoop的源码目录结构、各文件夹的职责以及源码中的包结构以及核心包对应的功能。 阅读全文
posted @ 2015-02-08 11:57 JackieZheng 阅读(2620) 评论(0) 推荐(0)
摘要:本篇主要介绍MapReduce的作业机制,并介绍介于Map和Reduce过程中的Shuffle和排序过程。 阅读全文
posted @ 2015-02-06 22:21 JackieZheng 阅读(1586) 评论(0) 推荐(0)
摘要:本篇主要介绍如何使用MapReduce执行数据排序,相对于传统排序,MapReduce面临哪些问题又有哪些优势,详细了解Map阶段和Reduce阶段如何衔接,Partition类如何使用;MapReduce如何进行单表连接等问题;通过打印程序执行过程信息,一目了然了解MapReduce执行的每一步。 阅读全文
posted @ 2015-01-28 22:48 JackieZheng 阅读(1569) 评论(0) 推荐(0)
摘要:继上篇《Hadoop阅读笔记(一)——强大的MapReduce》对MapReduce进行了理论的阐述,本篇通过WordCount加强版——求平均数以及WordCount阉割版——去重两个案例加深对于MapReduce的理解,了解了map过程、combine过程以及reduce过程,结合数据集完美呈现两个例子运行的细节。 阅读全文
posted @ 2014-12-25 22:48 JackieZheng 阅读(4509) 评论(0) 推荐(1)
摘要:本篇是大数据系列的开局篇,主要介绍了Hadoop家族,HDFS和MapReduce的概念;通过以“专利数据集”为测试对象,编写MapReduce Demo,了解Hadoop MapReduce的内部运行机制以及Map和Reduce的输入输出键值对如何生成与相互关联等。 阅读全文
posted @ 2014-12-13 16:17 JackieZheng 阅读(3275) 评论(4) 推荐(1)
摘要:ubuntu的伪分布hadoop环境下跑wordcount遇到的问题以及windows下运行wordcount遇到的问题及解决办法。 阅读全文
posted @ 2014-04-04 15:06 JackieZheng 阅读(665) 评论(0) 推荐(0)