[杂谈]杂谈章5 问一些问题

一、分布式文件系统(HDFS）与linux系统文件系统关系

HDFS基于操作系统的文件系统；

假设有一个1G的大文件，在linux文件系统上就是一个文件，由1G/512b的block组成；在HDFS上需要1024MB/64MB=16块，即16个linux文件组成，所以相当于一个普通1G的文件分成了16个小文件，在HDFS上的namenode会记录1G文件名对应16个文件名映射关系和16个文件名在对应datanote节点上的映射关系（备份除外）。datanote节点上的16个小文件就是linux文件，在各自datanote节点上的inode里记录了16个文件对应物理磁盘的映射关系。简而言之：1G的分布式文件转换成16个linux文件，HDFS就是实现了拆分文件功能，当然由于考虑单点故障原因，它把每个文件复制了3份(默认),不管哪个节点出故障可以合成完整的一个1G文件

二、Hash算法

散列表,它是基于高速存取的角度设计的，也是一种典型的“空间换时间”的做法。顾名思义，该数据结构能够理解为一个线性表，可是当中的元素不是紧密排列的，而是可能存在空隙。

散列表（Hash table，也叫哈希表），是依据关键码值(Key value)而直接进行訪问的数据结构。也就是说，它通过把关键码值映射到表中一个位置来訪问记录，以加快查找的速度。这个映射函数叫做散列函数，存放记录的数组叫做散列表。

著名的hash算法，MD5 和 SHA-1 能够说是眼下应用最广泛的Hash算法，而它们都是以 MD4 为基础设计的。

　　（1) MD4

　　MD4(RFC 1320)是 MIT 的 Ronald L. Rivest 在 1990 年设计的，MD 是 Message Digest 的缩写。它适用在32位字长的处理器上用快速软件实现--它是基于 32 位操作数的位操作来实现的。

　　（2) MD5

　　MD5(RFC 1321)是 Rivest 于1991年对MD4的改进版本号。它对输入仍以512位分组，其输出是4个32位字的级联，与 MD4 同样。MD5比MD4来得复杂，而且速度较之要慢一点，但更安全，在抗分析和抗差分方面表现更好

　　（3) SHA-1 及其它

SHA1是由NIST NSA设计为同DSA一起使用的，它对长度小于264的输入，产生长度为160bit的散列值，因此抗穷举(brute-force)性更好。SHA-1 设计时基于和MD4同样原理,而且模仿了该算法

posted on 2019-04-28 11:55 深圳私塾阅读(131) 评论(0) 收藏举报

刷新页面返回顶部

深圳私塾

[杂谈]杂谈章5 问一些问题

一、分布式文件系统(HDFS）与linux系统文件系统关系

二、Hash算法

导航

公告