hadoop - 文章分类 - zhangshihai1232

hadoop-小文件合并&分布式文件系统

摘要：Hadoop Archive 创建存档文件的问题： 1、存档文件的源文件目录以及源文件都不会自动删除需要手动删除 2、存档的过程实际是一个mapreduce过程，所以需要需要hadoop的mapreduce的支持 3、存档文件本身不支持压缩 4、存档文件一旦创建便不可修改，要想从中删除或者增加文件，阅读全文

posted @ 2016-12-21 19:17 zhangshihai1232 阅读(657) 评论(0) 推荐(0)

hadodop-源码-InputFormat

摘要：InputFormat 设置map输入所有的输入接口InputFormat 按照实现方式，将输入数据产生输入分片；一个输入分片会被单独的map task作为数据源；通过InputFormat mr可以做到验证作业输入的正确性将输入文件切割成逻辑分片(InputSplit)，一个InputSp 阅读全文

posted @ 2016-12-06 12:15 zhangshihai1232 阅读(142) 评论(0) 推荐(0)

hadoop-基础-mapreduce运行机制

摘要：hadoop mapreduce 运行机制五个阶段输入分片（input split） map阶段、combiner阶段 shuffle阶段 reduce阶段输入分片 map之前，会计算input split，每个input split一个map task； input split存储的不是数据阅读全文

posted @ 2016-11-15 17:15 zhangshihai1232 阅读(289) 评论(0) 推荐(0)

MapReduce编程基础

摘要：一. 编程模型 map阶段输入格式解析：InputFormat(默认TextInputFormat) 输入数据处理：Mapper+combiner(本地reducer) 数据分组：Partitioner reduce阶段数据远程拷贝数据按key排序数据处理：Reducer 数据输出格式；Ou 阅读全文

posted @ 2016-09-13 17:50 zhangshihai1232 阅读(290) 评论(0) 推荐(0)

hdfs java编程

摘要：一. 创建文件 Configuration 创建Configuration的过程，初始化代码,把core site.xml文件添加进defaultResources链表中构造函数把本个configuration作为key传入REGISTRY FileSystem getDefaultUri获取hd 阅读全文

posted @ 2016-09-13 14:10 zhangshihai1232 阅读(193) 评论(0) 推荐(0)

hadoop单机环境配置

摘要：配置文件 hadoop env.sh Slaves mapred site.xml core site.xml yarn site.xml hdfs site.xml 启动格式化HDFS：启动namenode：启动datanode：启动resoucemanager：启动nodemanage 阅读全文

posted @ 2016-09-12 20:13 zhangshihai1232 阅读(98) 评论(0) 推荐(0)

hadoop-idea-windows下连接

摘要：windows环境准备第一步：环境变量第二步：windows64下hadoop2.6插件包路径下编译后放到放到 idea配置 pom依赖把core site.xml和log4j.properties放到resource路径 core site.xml log4j.properties W 阅读全文

posted @ 2016-09-01 17:31 zhangshihai1232 阅读(650) 评论(0) 推荐(0)

HDFS详解

摘要：一. 节点类型 NameNode 将所有的文件和文件夹的元数据保存在一个文件系统树中。这些信息也会在硬盘上保存成以下文件：命名空间镜像(namespace image)及修改日志(edit log) 还保存了一个文件包括哪些数据块，分布在哪些数据节点上。然而这些信息并不存储在硬盘上，而是在系统启动阅读全文

posted @ 2016-08-30 21:53 zhangshihai1232 阅读(152) 评论(0) 推荐(0)

hadoop集群配置

摘要：完全分布式配置一. 免密登录 1.1 服务器配置 1. 修改文件中，找到以下内容，并去掉注释符 2. 配置authorized_keys文件,修改权限如果没有，需要建立文件把客户机的文件拷贝到中 1.2 客户机配置 1.生成公钥 2.执行二. 配置PATH变量三. 配置hadoop 阅读全文

posted @ 2016-08-19 14:49 zhangshihai1232 阅读(197) 评论(0) 推荐(0)

hdfs

摘要：一. hdfs概述 HDFS优点自动保存多个副本副本丢失，自动回复适合批处理移动计算而非数据数据位置暴露给计算框架适合大数据处理 pb级百万规模以上文件 10k+节点流式文件访问一次性写入，多次读取保证数据一致性可构建在廉价的机器上通过多副本提高可靠性提供了容错和恢复机制阅读全文

posted @ 2016-08-18 23:34 zhangshihai1232 阅读(194) 评论(0) 推荐(0)

HDFS Users Guide

摘要：HDFS Users Guide 一. 概述一个HDFS集群主要包括一个nameNode和若干dateNode 《HDFS Architecture Guide》描述细节,用图表描述了NameNode、DateNode、Client之间的基本交互，《HDFS Users Guide》主要写命令交阅读全文

posted @ 2016-08-18 17:45 zhangshihai1232 阅读(125) 评论(0) 推荐(0)

MapReduce原理

摘要：一. MapReduce的应用场景 MapReduce特点：易于编程，良好的扩展性，高容错性，适合PB级以上海量数据的离线处理不擅长的方面：实时计算，无法秒或者毫秒级；流式计算，数据只能静态，不能动态；DAG计算，有向图计算，多个程序之间存在依赖关系。二. MapReduce编程模型场景：有大阅读全文

posted @ 2016-08-07 16:38 zhangshihai1232 阅读(203) 评论(0) 推荐(1)

YARN架构

摘要：一. YARN产生背景 MR1.0的问题 JobTracker：作业调度,资源管理 TaskTracker：负责本节点的资源管理，任务管理 TaskTracker通过心跳发送给JobTracker本节点资源使用及task状态，JobTracker通过心跳应答发送新的命令或者状态。 MapReduce 阅读全文

posted @ 2016-08-07 16:27 zhangshihai1232 阅读(363) 评论(1) 推荐(0)

zhangshihai1232

文章分类 - hadoop

公告