随笔分类 -  Hadoop

摘要:前言 前面一篇博文写的是Combiner优化MapReduce执行,也就是使用Combiner在map端执行减少reduce端的计算量。 一、作业的默认配置 MapReduce程序的默认配置 1)概述 在我们的MapReduce程序中有一些默认的配置。所以说当我们程序如果要使用这些默认配置时,可以不 阅读全文
posted @ 2017-10-27 20:40 华仔Coding 阅读(4500) 评论(0) 推荐(2) 编辑
摘要:前言 前面的一篇给大家写了一些MapReduce的一些程序,像去重、词频统计、统计分数、共现次数等。这一篇给大家介绍的是关于Combiner优化操作。 一、Combiner概述 1.1、为什么需要Combiner 我们map任务处理的结果是存放在运行map任务的节点上。 map处理的数据的结果在进入 阅读全文
posted @ 2017-10-26 21:24 华仔Coding 阅读(2196) 评论(0) 推荐(1) 编辑
摘要:一、统计好友对数(去重) 1.1、数据准备 joe, jon joe , kia joe, bob joe ,ali kia, joe kia ,jim kia, dee dee ,kia dee, ali ali ,dee ali, jim ali ,bob ali, joe ali ,jon j 阅读全文
posted @ 2017-10-25 22:47 华仔Coding 阅读(7304) 评论(2) 推荐(1) 编辑
摘要:前言 上一篇我们分析了一个MapReduce在执行中的一些细节问题,这一篇分享的是MapReduce并行处理的基本过程和原理。 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。 Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组 阅读全文
posted @ 2017-10-25 21:39 华仔Coding 阅读(2947) 评论(1) 推荐(1) 编辑
摘要:前言 刚才发生了悲伤的一幕,本来这篇博客马上就要写好的,花了我一晚上的时间。但是刚才电脑没有插电源就没有了。很难受!想哭,但是没有办法继续站起来。 前面的一篇博文中介绍了什么是MapReduce,这一篇给大家详细的分享一下MapReduce的运行原理。 一、写一个MapReduce程序例子 1.1、 阅读全文
posted @ 2017-10-25 15:15 华仔Coding 阅读(2320) 评论(3) 推荐(4) 编辑
摘要:前言 前面以前把关于HDFS集群的所有知识给讲解完了,接下来给大家分享的是MapReduce这个Hadoop的并行计算框架。 一、背景 1)爆炸性增长的Web规模数据量 2)超大的计算量/计算复杂度 3)并行计算大趋所势 二、大数据的并行计算 1)一个大数据若可以分为具有同样计算过程的数据块,并且这 阅读全文
posted @ 2017-10-23 21:02 华仔Coding 阅读(2776) 评论(0) 推荐(2) 编辑
摘要:前言 上一篇给大家介绍了Hadoop是怎么样保证数据的完整性的,并且使用Java程序来验证了会产生.crc的校验文件。这一篇给大家分享的是Hadoop的序列化! 一、序列化和反序列化概述 1.1、序列化和反序列化的定义 1)序列化:将结构化对象转换为字节流的过程,以便在网络上传输或写入到磁盘进行永久 阅读全文
posted @ 2017-10-22 21:20 华仔Coding 阅读(2601) 评论(0) 推荐(2) 编辑
摘要:前言 上一篇我分享了Hadoop的压缩和编解码器,在我们开发的过程中其实是经常会用到的,所以一定要去掌握。这一篇给大家介绍的是Hadoop的数据完整性! Hadoop用户在使用HDFS储存和处理数据不会丢失或者损坏,在磁盘或者网络上的每一个I/O操作不太可能将错误引入自己正在读/写的数据中,但是如果 阅读全文
posted @ 2017-10-22 00:19 华仔Coding 阅读(2721) 评论(0) 推荐(2) 编辑
摘要:前言 前面一篇介绍了Java怎么去查看数据块的相关信息和怎么去查看文件系统。我们只要知道怎么去查看就行了!接下来我分享的是Hadoop的I/O操作。 在Hadoop中为什么要去使用压缩(Compression)呢?接下来我们就知道了。 一、压缩(Compression)概述 1.1、压缩的好处 减少 阅读全文
posted @ 2017-10-20 13:57 华仔Coding 阅读(4623) 评论(0) 推荐(2) 编辑
摘要:前言 我们知道HDFS集群中,所有的文件都是存放在DN的数据块中的。那我们该怎么去查看数据块的相关属性的呢?这就是我今天分享的内容了 一、HDFS中数据块概述 1.1、HDFS集群中数据块存放位置 我们知道hadoop集群遵循的是主/从的架构,namenode很多时候都不作为文件的读写操作,只负责任 阅读全文
posted @ 2017-10-20 09:52 华仔Coding 阅读(7130) 评论(0) 推荐(0) 编辑
摘要:前言 HDFS(Hadoop Distributed File System)是一个分布式文件系统。它具有高容错性并提供了高吞吐量的数据访问,非常适合大规模数据集上的应用,它提供了一个高度容错性和高吞吐量的海量数据存储解决方案。 优点是: 高吞吐量访问:HDFS的每个Block分布在不同的Rack上 阅读全文
posted @ 2017-10-17 23:37 华仔Coding 阅读(10887) 评论(8) 推荐(3) 编辑
摘要:前言 其实说到HDFS的存储原理,无非就是读操作和写操作,那接下来我们详细的看一下HDFS是怎么实现读写操作的! 一、HDFS读取过程 1)客户端通过调用FileSystem对象的open()来读取希望打开的文件。对于HDFS来说,这个对象是分布式文件系统的一个实例。 2)DistributedFi 阅读全文
posted @ 2017-10-17 12:48 华仔Coding 阅读(4621) 评论(6) 推荐(6) 编辑
摘要:前言 上一篇详细介绍了HDFS集群,还有操作HDFS集群的一些命令,常用的命令: 注意:这里要说明一下-cp,我们可以从本地文件拷贝到集群,集群拷贝到本地,集群拷贝到集群。 一、Hadoop客户端配置 其实在前面配置的每一个集群节点都可以做一个Hadoop客户端。但是我们一般都不会拿用来做集群的服务 阅读全文
posted @ 2017-10-16 21:46 华仔Coding 阅读(46348) 评论(7) 推荐(5) 编辑
摘要:前言 前面几篇简单介绍了什么是大数据和Hadoop,也说了怎么搭建最简单的伪分布式和全分布式的hadoop集群。接下来这篇我详细的分享一下HDFS。 HDFS前言: 设计思想:(分而治之)将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析。 在大数据系统中 阅读全文
posted @ 2017-10-12 20:30 华仔Coding 阅读(7872) 评论(5) 推荐(8) 编辑
摘要:前言 上一篇介绍了伪分布式集群的搭建,其实在我们的生产环境中我们肯定不是使用只有一台服务器的伪分布式集群当中的。接下来我将给大家分享一下全分布式集群的搭建! 其实搭建最基本的全分布式集群和伪分布式集群基本没有什么区别,只有很小的区别。 一、搭建Hadoop全分布式集群前提 1.1、网络 1)如果是在 阅读全文
posted @ 2017-10-11 21:22 华仔Coding 阅读(31303) 评论(4) 推荐(10) 编辑
摘要:前言 前面只是大概介绍了一下Hadoop,现在就开始搭建集群了。我们下尝试一下搭建一个最简单的集群。之后为什么要这样搭建会慢慢的分享,先要看一下效果吧! 一、Hadoop的三种运行模式(启动模式) 1.1、单机模式(独立模式)(Local或Standalone Mode) -默认情况下,Hadoop 阅读全文
posted @ 2017-10-10 23:07 华仔Coding 阅读(36721) 评论(5) 推荐(16) 编辑
摘要:前言 从今天起,我将一步一步的分享大数据相关的知识,其实很多程序员感觉大数据很难学,其实并不是你想象的这样,只要自己想学,还有什么难得呢? 学习Hadoop有一个8020原则,80%都是在不断的配置配置搭建集群,只有20%写程序! 一、引言(大数据时代) 1.1、从数据中得到信息 我们看一张图片: 阅读全文
posted @ 2017-10-10 20:57 华仔Coding 阅读(11263) 评论(4) 推荐(6) 编辑

levels of contents