NightRaven - 博客园

2018年1月27日

摘要： MapReduce的思想就是“分而治之”。 1）Mapper负责“分” 把复杂的任务分解为若干个“简单的任务”来处理。“简单的任务”包含三层含义：数据或计算的规模相对原任务要大大缩小就近计算原则，任务会分配到存放着所需数据的节点上进行计算这些小任务可以并行计算彼此间几乎没有依赖关系 2）Red 阅读全文

posted @ 2018-01-27 19:06 NightRaven 阅读(457) 评论(0) 推荐(0)

2018年1月26日

Writable和Comparable

摘要： WritableComparable接口相当于继承了上述两个接口的新接口 : Public interface WritableComparable<T>extends Writable,Comparable<T> Writable接口: 基于DataInput与DatOutput的简单高效可序列化阅读全文

posted @ 2018-01-26 20:37 NightRaven 阅读(210) 评论(0) 推荐(0)

压缩

摘要：压缩好处：减少储存文件所需空间，还可以降低其在网络上传输的时间。压缩算法对比算法原始文件大小压缩后文件大小压缩速度解压缩速度 Gzip 8.3G 1.8G 17.5MB/s 58MB/s Bzip2 8.3G 1.1G 2.4MB/s 9.5MB/s LZO-bset 8.3G 2G 4 阅读全文

posted @ 2018-01-26 19:09 NightRaven 阅读(286) 评论(0) 推荐(0)

SequenceFile和MapFile

摘要： HDFS和MR主要针对大数据文件来设计，在小文件处理上效率低.解决方法是选择一个容器,将这些小文件包装起来,将整个文件作为一条记录,可以获取更高效率的储存和处理,避免多次打开关闭流耗费计算资源.hdfs提供了两种类型的容器 SequenceFile和MapFile。小文件问题解决方案在原有HDF 阅读全文

posted @ 2018-01-26 19:00 NightRaven 阅读(477) 评论(0) 推荐(0)

hdfs校验和

摘要： hdfs完整性：用户希望储存和处理数据的时候，不会有任何损失或者损坏。所以提供了两种校验： 1.校验和（常用循环冗余校验CRC-32）。 2.运行后台进程来检测数据块。校验和： a.写入数据节点验证 b.读取数据节点验证 c.恢复数据 d.Localfilesystem类 e.Checksumfi 阅读全文

posted @ 2018-01-26 18:43 NightRaven 阅读(1071) 评论(0) 推荐(1)

2018年1月24日

hdfs读写策略

摘要：读数据过程： 1.客户端调用FileSystem 实例的open 方法，获得这个文件对应的输入流InputStream 2.访问NameNode，获取文件对应数据块的保存位置，包括副本位置。 3.获得输入流之后，客户端便调用read()方法读取数据。选择最近的datanode进行连接并读取数据。 4 阅读全文

posted @ 2018-01-24 19:53 NightRaven 阅读(583) 评论(0) 推荐(0)

hdfs架构

摘要： hdfs组成：主控节点(NameNode)、从节点(DataNode)、客户端 1.NameNode NameNode是一个主控节点，用来管理整个文件系统的命名空间和元数据，以及处理来自外界的文件访问请求。NameNode 保存了文件系统的三种元数据: 1) 命名空间，即整个分布式文件系统的目录阅读全文

posted @ 2018-01-24 19:48 NightRaven 阅读(175) 评论(0) 推荐(0)

hdfs数据块

摘要：数据块是一组或几组按顺序连续排列在一起的记录，是主存储器与输入设备、输出设备或外存储器之间进行传输的数据单位。在传统的块存储介质中，块是读写的最小数据单位 (扇区) 传统文件系统基于存储块进行操作为了节省文件分配表空间，会对物理存进行储块整般合，一般大小为4096字节 HDFS也使用了块的概念，阅读全文

posted @ 2018-01-24 19:40 NightRaven 阅读(374) 评论(0) 推荐(0)

元数据

摘要：描述数据的数据就称为元数据。一、元数据包括： 1.文件系统目录树信息 2.文件名，目录名 3.文件和目录的从属关系 4.文件和目录的大小，创建及最后访问时间 5.权限二、文件和块的对应关系文件由哪些块组成三、块的存放位置机器名，块ID 四、HDFS对元数据和实际数据采取分别存储的方法元数阅读全文

posted @ 2018-01-24 19:37 NightRaven 阅读(196) 评论(0) 推荐(1)

集群的创建

摘要：在ssh无需密码登录以及jdk、hadoop路径配置好后，我们以master、slave1为例：配置hadoop集群一共有7个文件要修改： hadoop-2.6.0/etc/hadoop/hadoop-env.sh hadoop-2.6.0/etc/hadoop/yarn-env.sh hado 阅读全文

posted @ 2018-01-24 19:23 NightRaven 阅读(169) 评论(0) 推荐(0)

公告