2017年8月1日

Hadoop-No.6之文件在HDFS中的位置

摘要: 在设计一种HDFS模式时,首先应该决定文件的位置.标准化的位置会使得团队之间更容易查找和共享数据. 推荐HDFS目录结构实例.目录结构简化了不同组和用户的权限分配/user/{username}只属于特定用户的数据,JAR包和配置文件.通常是用户在试验中使用... 阅读全文

posted @ 2017-08-01 15:55 Holyz 阅读(453) 评论(0) 推荐(0) 编辑
Hadoop-No.5之压缩

摘要: Hadoop存储数据时需要着重考虑的一个因素就是压缩.这里不仅要满足节省存储空间的需求,也要提升数据处理性能.在处理大量数据时,消耗最大的是磁盘和网络的I/O,所以减少需要读取或者写入磁盘的数据量就能大大缩短整体处理时间.这包括数据源的压缩,它也包括数据处理... 阅读全文

posted @ 2017-08-01 14:54 Holyz 阅读(190) 评论(0) 推荐(0) 编辑
Hadoop-No.4之列式存储格式

摘要: 列式系统可提供的优势对于查询内容之外的列,不必执行I/O和解压(若适用)操作非常适合仅访问小部分列的查询.如果访问的列很多,则行存格式更为合适相比由多行构成的数据块,列内的信息熵更低,所以从压缩角度来看,列式存储通常会非常高效.换句话说,同一列中的数据比... 阅读全文

posted @ 2017-08-01 08:55 Holyz 阅读(581) 评论(0) 推荐(0) 编辑