文章分类 - hadoop
摘要:Hadoop Archive 创建存档文件的问题: 1、存档文件的源文件目录以及源文件都不会自动删除需要手动删除 2、存档的过程实际是一个mapreduce过程,所以需要需要hadoop的mapreduce的支持 3、存档文件本身不支持压缩 4、存档文件一旦创建便不可修改,要想从中删除或者增加文件,
        阅读全文
            
摘要:InputFormat 设置map输入 所有的输入接口InputFormat 按照实现方式,将输入数据产生输入分片;一个输入分片会被单独的map task作为数据源; 通过InputFormat mr可以做到 验证作业输入的正确性 将输入文件切割成逻辑分片(InputSplit),一个InputSp
        阅读全文
            
摘要:hadoop mapreduce 运行机制 五个阶段 输入分片(input split) map阶段、combiner阶段 shuffle阶段 reduce阶段 输入分片 map之前,会计算input split,每个input split一个map task; input split存储的不是数据
        阅读全文
            
摘要:一. 编程模型 map阶段 输入格式解析:InputFormat(默认TextInputFormat) 输入数据处理:Mapper+combiner(本地reducer) 数据分组:Partitioner reduce阶段 数据远程拷贝 数据按key排序 数据处理:Reducer 数据输出格式;Ou
        阅读全文
            
摘要:一. 创建文件 Configuration 创建Configuration的过程,初始化代码,把core site.xml文件添加进defaultResources链表中 构造函数把本个configuration作为key传入REGISTRY FileSystem getDefaultUri获取hd
        阅读全文
            
摘要:配置文件 hadoop env.sh Slaves mapred site.xml core site.xml yarn site.xml hdfs site.xml 启动 格式化HDFS: 启动namenode: 启动datanode: 启动resoucemanager: 启动nodemanage
        阅读全文
            
摘要:windows环境准备 第一步:环境变量 第二步:windows64下hadoop2.6插件包 路径下编译后 放到 放到 idea配置 pom依赖 把core site.xml和log4j.properties放到resource路径 core site.xml log4j.properties W
        阅读全文
            
摘要:一. 节点类型 NameNode 将所有的文件和文件夹的元数据保存在一个文件系统树中。 这些信息也会在硬盘上保存成以下文件:命名空间镜像(namespace image)及修改日志(edit log) 还保存了一个文件包括哪些数据块,分布在哪些数据节点上。然而这些信息并不存储在硬盘上,而是在系统启动
        阅读全文
            
摘要:完全分布式配置 一. 免密登录 1.1 服务器配置 1. 修改 文件中,找到以下内容,并去掉注释符 2. 配置authorized_keys文件,修改权限 如果没有,需要建立 文件 把客户机的 文件拷贝到 中 1.2 客户机配置 1.生成公钥 2.执行 二. 配置PATH变量 三. 配置hadoop
        阅读全文
            
摘要:一. hdfs概述 HDFS优点 自动保存多个副本 副本丢失,自动回复 适合批处理 移动计算而非数据 数据位置暴露给计算框架 适合大数据处理 pb级 百万规模以上文件 10k+节点 流式文件访问 一次性写入,多次读取 保证数据一致性 可构建在廉价的机器上 通过多副本提高可靠性 提供了容错和恢复机制 
        阅读全文
            
摘要:HDFS Users Guide 一. 概述 一个HDFS集群主要包括一个nameNode和若干dateNode 《HDFS Architecture Guide》描述细节,用图表描述了NameNode、DateNode、Client之间的基本交互, 《HDFS Users Guide》主要写命令交
        阅读全文
            
摘要:一. MapReduce的应用场景 MapReduce特点:易于编程,良好的扩展性,高容错性,适合PB级以上海量数据的离线处理 不擅长的方面:实时计算,无法秒或者毫秒级;流式计算,数据只能静态,不能动态;DAG计算,有向图计算,多个程序之间存在依赖关系。 二. MapReduce编程模型 场景:有大
        阅读全文
            
摘要:一. YARN产生背景 MR1.0的问题 JobTracker:作业调度,资源管理 TaskTracker:负责本节点的资源管理,任务管理 TaskTracker通过心跳发送给JobTracker本节点资源使用及task状态,JobTracker通过心跳应答发送新的命令或者状态。 MapReduce
        阅读全文
            
 
                     
                    
                 
                    
                
 
 
         浙公网安备 33010602011771号
浙公网安备 33010602011771号