随笔分类 - hadoop
摘要:一、 Hadoop High Availability HA(High Available), 高可用,是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,分为活动节点(Active)及备用节点(Standby)。通常把正在执行业务的称为活动节点,而作为活动节点的一个备份的则称为备用节点。当
阅读全文
摘要:一、 Hadoop集群动态扩容、缩容 随着公司业务的增长,数据量越来越大,原有的datanode节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。也就是俗称的动态扩容。 有时候旧的服务器需要进行退役更换,暂停服务,可能就需要在当下的集群中停止某些机器上hadoop的服务
阅读全文
摘要:介绍:<!--more--> HDFS (Hadoop Distributed File System)是 Hadoop 下的分布式文件系统,具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。 HDFS 设计原理 HDFS 架构 HDFS 遵循主/从架构,由单个 NameNode(NN) 和多个
阅读全文
摘要:Hadoop是什么? 狭义上: HDFS:分布式文件存储系统 MapReduce:分布式计算框架 YARN:资源管理任务调度 广义上: HDFS:分布式文件存储系统 MapReduce:分布式计算框架 YARN:资源管理任务调度 特指apache一款由java开发,开源的大户数据处理平台软件 had
阅读全文
摘要:hadoop hdfs 垃圾回收机制 何为垃圾回收 开启垃圾回收站 把删除的文件首先放置在回收站中 等待配置的时间结束 进行真正的数据删除 如何开始 vim core-site.xml<property><name>fs.trash.interval</name><value>1440</value
阅读全文
摘要:一、 MapReduce jobHistory JobHistory用来记录已经finished(结束)的mapreduce运行日志,日志信息存放于HDFS目录中,默认情况下没有开启此功能,需要在mapred-site.xml中配置并手动启动。 1. 修改mapred-site.xml cd /ex
阅读全文
摘要:hadoop初体验 namnode format操作 首次启动集群需要针对hdfs 操作 操作只需要进行一次 通常在namenode所在节点进行 format中主要创建了hadoop运行时依赖的一些文件夹和文件 Storage directory /export/data/hadoopdata/df
阅读全文
摘要:Hadoop2.x的安装与配置(文档有详细) (一)Hadoop安装部署的预备条件 安装Linux 安装JDK hadoop集群搭建 hadoop发行版本 社区版:官方版本 apache社区维护 优点:功能最新的 免费 缺点:稳定性 兼容性不好 https://archive.apache.org/
阅读全文
摘要:1. Hadoop介绍 Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。 狭义上说,Hadoop指Apache这款开源框架,它的核心组件有: HDFS(分布式文件系统):
阅读全文
摘要:是什么? 分布式文件存储系统(是一个跨多台机器的文件存储系统) HDFS设计,特性: 分布式:标准的主从架构(NameNode DataNode) 一次写入多次读取:数据侧重于分析 注重数据吞吐量,交互延迟高,不适合做网盘 侧重于大文件存储,不利于小文件,小文件吃内存 基本原理: 对外如同一个黑盒子
阅读全文

浙公网安备 33010602011771号