摘要:
这里介绍两种方法 第一种深度优先,即先遍历当前目录下的第一个目录里面的第一个目录,以此类推,然后再逐层向上遍历。代码如下: import os def gci(filepath): #遍历filepath下所有文件,包括子目录 files = os.listdir(filepath) for fi 阅读全文
摘要:
26 集群使用初步 HDFS的设计思路 l 设计思想 分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析; l 在大数据系统中作用: 为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务 l 重点概念:文件切块 阅读全文
摘要:
Hadoop on Ubuntu 14.04 In this chapter, we'll install a single-node Hadoop cluster backed by the Hadoop Distributed File System on Ubuntu. Installing 阅读全文