hadoop(一)
概念:
Hadoop是一种开源的适合大数据的分布式存储和处理的平台。
hadoop的作用:
1)搜索引擎:为了针对大规模的网页快速建立索引;
2)大数据存储:利用Hadoop的分布式存储能力,例如数据备份、数据仓库等;
3)大数据处理:利用Hadoop的分布式处理能力,例如数据挖掘、数据分析等;
hadoop三种模式
- 单机模式
- 伪分布模式
- 全分布模式
hadoop文件管理系统hdfs
特点:
保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。
运行在廉价的机器上。
适合大数据的处理。HDFS默认会将文件分割成block,64M为1个block。然后将block按键值对存储在HDFS上并将键值对的映射存到内存中。如果小文件太多,那内存的负担会很重。
** HDFS中的两个重要角色:**
namenode 与 datanode
[Namenode]
1)管理文件系统的命名空间。
2)记录 每个文件数据快在各个Datanode上的位置和副本信息。
3)协调客户端对文件的访问。
4)记录命名空间内的改动或者空间本省属性的改动。
5)Namenode 使用事务日志记录HDFS元数据的变化。使用映像文件存储文件系统的命名空间,包括文件映射,文件属性等。
[Datanode]
1)负责所在物理节点的存储管理。
2)一次写入,多次读取(不修改)。
3)文件由数据库组成,一般情况下,数据块的大小为64MB。
4)数据尽量散步到各个节点。
namenode 是 datanode的管理者。
一个namenode可以管理多个datanode节点。datanode又可以去控制本地的磁盘数据读写。
** 热备份与冷备份的概念:**
热备份:b是a的热备份,a坏掉,b可以替代。
冷备份:b是a的热备份,a坏掉,b不能替代。b只能减少损失(只含少量(部分)a的备份)。

浙公网安备 33010602011771号