hadoop - 随笔分类 - JackieZheng

摘要：搭建起环境顺顺利利，你以为后面也会一帆风顺，想多了，该踩的坑肯定一个都不会少的让你一一体验的，所以还是进来先看看吧，方便下次一眼就能看出这些坑，然后迅速的把它们填满。阅读全文

posted @ 2017-06-04 00:18 JackieZheng 阅读(7676) 评论(2) 推荐(1)

摘要：spark环境搭建篇：配置ssh免密登录以及遇到的坑，安装hadoop，scala以及下载安装spark，成功搭建spark伪分布式环境。阅读全文

posted @ 2017-05-07 15:13 JackieZheng 阅读(31597) 评论(4) 推荐(5)

摘要：Hadoop RPC使用Java动态代理与反射实现对象调用方式，客户端到服务器数据的序列化与反序列化由Hadoop框架或用户自己来实现，也就是数据组装是定制的。这里介绍Hadoop RPC中采用的动态代理模式，同时介绍了另一种模式静态代理，通过案例比较两种模式的优劣以及模式本身存在的问题。阅读全文

posted @ 2015-06-28 14:04 JackieZheng 阅读(1593) 评论(2) 推荐(0)

Hadoop阅读笔记（六）——洞悉Hadoop序列化机制Writable

摘要：通过阅读Hadoop源码，针对org.apache.hadoop.conf和org.apache.hadoop.io包的部分类接口进行解读，主要包含了hadoop的资源配置类Configuration、hadoop的序列化机制、Writable的地位与继承实现关系、常用类解析等阅读全文

posted @ 2015-02-10 23:13 JackieZheng 阅读(2291) 评论(0) 推荐(0)

Hadoop阅读笔记（五）——重返Hadoop目录结构

摘要：主要介绍有关Hadoop的源码目录结构、各文件夹的职责以及源码中的包结构以及核心包对应的功能。阅读全文

posted @ 2015-02-08 11:57 JackieZheng 阅读(2637) 评论(0) 推荐(0)

Hadoop阅读笔记（四）——一幅图看透MapReduce机制

摘要：本篇主要介绍MapReduce的作业机制，并介绍介于Map和Reduce过程中的Shuffle和排序过程。阅读全文

posted @ 2015-02-06 22:21 JackieZheng 阅读(1590) 评论(0) 推荐(0)

Hadoop阅读笔记（三）——深入MapReduce排序和单表连接

摘要：本篇主要介绍如何使用MapReduce执行数据排序，相对于传统排序，MapReduce面临哪些问题又有哪些优势，详细了解Map阶段和Reduce阶段如何衔接，Partition类如何使用；MapReduce如何进行单表连接等问题；通过打印程序执行过程信息，一目了然了解MapReduce执行的每一步。阅读全文

posted @ 2015-01-28 22:48 JackieZheng 阅读(1583) 评论(0) 推荐(0)

Hadoop阅读笔记（二）——利用MapReduce求平均数和去重

摘要：继上篇《Hadoop阅读笔记（一）——强大的MapReduce》对MapReduce进行了理论的阐述，本篇通过WordCount加强版——求平均数以及WordCount阉割版——去重两个案例加深对于MapReduce的理解，了解了map过程、combine过程以及reduce过程，结合数据集完美呈现两个例子运行的细节。阅读全文

posted @ 2014-12-25 22:48 JackieZheng 阅读(4524) 评论(0) 推荐(1)

Hadoop阅读笔记（一）——强大的MapReduce

摘要：本篇是大数据系列的开局篇，主要介绍了Hadoop家族，HDFS和MapReduce的概念；通过以“专利数据集”为测试对象，编写MapReduce Demo，了解Hadoop MapReduce的内部运行机制以及Map和Reduce的输入输出键值对如何生成与相互关联等。阅读全文

posted @ 2014-12-13 16:17 JackieZheng 阅读(3312) 评论(4) 推荐(1)

windows环境下跑hadoop自带的wordcount遇到的问题

摘要：ubuntu的伪分布hadoop环境下跑wordcount遇到的问题以及windows下运行wordcount遇到的问题及解决办法。阅读全文

posted @ 2014-04-04 15:06 JackieZheng 阅读(675) 评论(0) 推荐(0)

随笔分类 - hadoop

公告