随笔分类 -  HADOOP

摘要:调优概述# 几乎在很多场景,MapRdeuce或者说分布式架构,都会在IO受限,硬盘或者网络读取数据遇到瓶颈.处理数据瓶颈CPU受限.大量的硬盘读写数据是海量数据分析常见情况. IO受限例子: 索引 分组 数据倒入导出 数据移动和转换 CPU受限例子: 聚类/分类 复杂的文本挖掘 特征提取 用户画像 阅读全文
posted @ 2019-09-15 23:40 老白条 阅读(4408) 评论(0) 推荐(0)
摘要:Hadoop是市面上使用最多的大数据分布式文件存储系统和分布式处理系统, 其中分为两大块分别是hdfs和MapReduce, hdfs是分布式文件存储系统, 借鉴了Google的GFS论文. MapReduce是分布式计算处理系统, 借鉴了Google的MapReduce论文.本文着重来梳理下新版也 阅读全文
posted @ 2019-03-29 10:57 老白条 阅读(666) 评论(0) 推荐(0)
摘要:1、集群部署介绍 1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用 阅读全文
posted @ 2016-07-01 10:28 老白条 阅读(491) 评论(0) 推荐(0)
摘要:1、HDFS简介 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征 阅读全文
posted @ 2016-07-01 10:27 老白条 阅读(222) 评论(0) 推荐(0)
摘要:Hadoop中文文档 http://hadoop.apache.org/docs/r1.0.4/cn/index.html Hadoop资料整理 http://www.itpub.net/thread-1588509-1-1.html Hadoop集群_Hadoop安装配置 http://www.c 阅读全文
posted @ 2016-07-01 10:26 老白条 阅读(202) 评论(0) 推荐(0)
摘要:MapReduce工作原理图文详解 一 MapReduce程序执行流程 程序执行流程图如下: 流程分析:1.在客户端启动一个作业。2.向JobTracker请求一个Job ID。3.将运行作业所需要的资源文件复制到HDFS上,包括MapReduce程序打包的JAR文件、配置文件和客户端计算所得的输入 阅读全文
posted @ 2016-06-28 16:17 老白条 阅读(360) 评论(0) 推荐(0)
摘要:1、创建目录命令 HDFS有一个默认的工作目录/user/$USER,其中$USER是用户的登录用户名。不过目录不会自动建立,需要mkdir建立它 命令格式:hadoop fs -mkdir 如: 在user目录下创建chen目录 hadoop fs -mkdir /user/chen 注意:Had 阅读全文
posted @ 2016-06-27 13:51 老白条 阅读(448) 评论(0) 推荐(0)
摘要:本文主要讲述 HDFS原理-架构、副本机制、HDFS负载均衡、机架感知、健壮性、文件删除恢复机制 1:当前HDFS架构详尽分析 HDFS架构 •NameNode •DataNode •Sencondary NameNode 数据存储细节 NameNode 目录结构 Namenode 的目录结构: $ 阅读全文
posted @ 2016-06-27 13:28 老白条 阅读(722) 评论(0) 推荐(0)
摘要:链接如下: http://www.chuanke.com/v1538386-116215-258987.html 阅读全文
posted @ 2016-04-20 14:57 老白条 阅读(996) 评论(0) 推荐(0)
摘要:(一)hadoop 相关安装部署 1、hadoop在windows cygwin下的部署: http://lib.open-open.com/view/1333428291655 http://blog.csdn.net/ruby97/article/details/7423088 http://b 阅读全文
posted @ 2014-07-19 22:27 老白条 阅读(1348) 评论(0) 推荐(0)
摘要:大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来。为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合适的语言。 我们可以带着下面问题来阅读本文章: 1... 阅读全文
posted @ 2014-07-16 19:43 老白条 阅读(327) 评论(0) 推荐(0)
摘要:Hadoop源代码分析(一)关键字: 分布式云计算Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。 GoogleCluster:http://research.google.com/archive/googlecluster.html Chubb... 阅读全文
posted @ 2014-07-09 22:41 老白条 阅读(7499) 评论(0) 推荐(0)
摘要:The Google File System中文版译者:alex摘要我们设计并实现了Google GFS文件系统,一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。GFS虽然运行在廉价的普遍硬件设备上,但是它依然了提供灾难冗余的能力,为大量客户机提供了高性能的服务。虽然GFS的设计目标与许多传... 阅读全文
posted @ 2014-07-09 22:32 老白条 阅读(2886) 评论(0) 推荐(0)