随笔分类 - Hadoop
摘要:第1章 大数据概论 1.1 大数据概念 大数据概念如图2-1 所示。 1.2 大数据特点(4V) 大数据特点如图2-2,2-3,2-4,2-5所示 1.3 大数据应用场景 大数据应用场景如图2-6,2-7,2-8,2-9,2-10,2-11所示 1.4 大数据发展前景 大数据发展前景如图2-12,2
阅读全文
摘要:MapReduce框架原理 3.1 InputFormat数据输入 3.1.1 切片与MapTask并行度决定机制 1.问题引出 MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。 思考:1G的数据,启动8个MapTask,可以提高集群的并发处理能力。那么1K的数
阅读全文
摘要:Hadoop序列化 2.1 序列化概述 2.2 自定义bean对象实现序列化接口(Writable) 在企业开发中往往常用的基本序列化类型不能满足所有需求,比如在Hadoop框架内部传递一个bean对象,那么该对象就需要实现序列化接口。 具体实现bean对象序列化步骤如下7步。 (1)必须实现Wri
阅读全文
摘要:第1章 MapReduce概述 1.1 MapReduce定义 1.2 MapReduce优缺点 1.2.1 优点 1.2.2 缺点 1.3 MapReduce核心思想 MapReduce核心编程思想,如图所示。 1)分布式的运算程序往往需要分成至少2个阶段。 2)第一个阶段的MapTask并发实例
阅读全文
摘要:<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Licensed to the Apache Software Foundation (ASF) under one or more contributor license agreements. See the NOTICE
阅读全文
摘要:1 集群间数据拷贝
2 小文件存档
3 回收站
4 快照管理
阅读全文
摘要:1 DataNode工作机制
2 数据完整性
3 掉线时限参数设置
4 服役新数据节点
5 退役旧数据节点
6 Datanode多目录配置
阅读全文
摘要:1 NN和2NN工作机制
2 Fsimage和Edits解析
3 CheckPoint时间设置
4 NameNode故障处理
5 集群安全模式
6 NameNode多目录配置
阅读全文
摘要:1 HDFS写数据流程 1.1 剖析文件写入 HDFS写数据流程,如图所示 1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。 2)NameNode返回是否可以上传。 3)客户端请求第一个 Block
阅读全文
摘要:2 HDFS的API操作 2.1 HDFS文件上传(测试参数优先级) 1.编写源代码 2.将hdfs-site.xml拷贝到项目的根目录下 3.参数优先级 参数优先级排序:(1)客户端代码中设置的值 >(2)ClassPath下的用户自定义配置文件 >(3)然后是服务器的默认配置 2.2 HDFS文
阅读全文
摘要:HDFS客户端操作 1.HDFS客户端环境准备 1.根据自己电脑的操作系统拷贝对应的编译后的hadoop jar包到非中文路径(例如:D:\Develop\hadoop-2.7.2),如图所示。 图 编译后的hadoop jar包 2.配置HADOOP_HOME环境变量,如图所示。 图 配置HADO
阅读全文
摘要:大数据技术之Hadoop(HDFS) 第一章 HDFS概述 HDFS组成架构 HDFS文件块大小 第二章 HDFS的Shell操作(开发重点) 1.基本语法 bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令 dfs是fs的实现类。 2.命令大全 3.常用命令实操 (0)
阅读全文

浙公网安备 33010602011771号