随笔分类 - hadoop
摘要:搭建起环境顺顺利利,你以为后面也会一帆风顺,想多了,该踩的坑肯定一个都不会少的让你一一体验的,所以还是进来先看看吧,方便下次一眼就能看出这些坑,然后迅速的把它们填满。
阅读全文
摘要:spark环境搭建篇:配置ssh免密登录以及遇到的坑,安装hadoop,scala以及下载安装spark,成功搭建spark伪分布式环境。
阅读全文
摘要:Hadoop RPC使用Java动态代理与反射实现对象调用方式,客户端到服务器数据的序列化与反序列化由Hadoop框架或用户自己来实现,也就是数据组装是定制的。这里介绍Hadoop RPC中采用的动态代理模式,同时介绍了另一种模式静态代理,通过案例比较两种模式的优劣以及模式本身存在的问题。
阅读全文
摘要:通过阅读Hadoop源码,针对org.apache.hadoop.conf和org.apache.hadoop.io包的部分类接口进行解读,主要包含了hadoop的资源配置类Configuration、hadoop的序列化机制、Writable的地位与继承实现关系、常用类解析等
阅读全文
摘要:主要介绍有关Hadoop的源码目录结构、各文件夹的职责以及源码中的包结构以及核心包对应的功能。
阅读全文
摘要:本篇主要介绍MapReduce的作业机制,并介绍介于Map和Reduce过程中的Shuffle和排序过程。
阅读全文
摘要:本篇主要介绍如何使用MapReduce执行数据排序,相对于传统排序,MapReduce面临哪些问题又有哪些优势,详细了解Map阶段和Reduce阶段如何衔接,Partition类如何使用;MapReduce如何进行单表连接等问题;通过打印程序执行过程信息,一目了然了解MapReduce执行的每一步。
阅读全文
摘要:继上篇《Hadoop阅读笔记(一)——强大的MapReduce》对MapReduce进行了理论的阐述,本篇通过WordCount加强版——求平均数以及WordCount阉割版——去重两个案例加深对于MapReduce的理解,了解了map过程、combine过程以及reduce过程,结合数据集完美呈现两个例子运行的细节。
阅读全文
摘要:本篇是大数据系列的开局篇,主要介绍了Hadoop家族,HDFS和MapReduce的概念;通过以“专利数据集”为测试对象,编写MapReduce Demo,了解Hadoop MapReduce的内部运行机制以及Map和Reduce的输入输出键值对如何生成与相互关联等。
阅读全文
摘要:ubuntu的伪分布hadoop环境下跑wordcount遇到的问题以及windows下运行wordcount遇到的问题及解决办法。
阅读全文

浙公网安备 33010602011771号