随笔分类 -  hadoop

摘要:Shuffle过程是MapReduce的核心,描述着数据从map task输出到reduce task输入的这段过程。 Hadoop的集群环境,大部分的map task和reduce task是执行在不同的节点上的,那么reduce就要取map的输出结果。那么集群中运行多个Job时,task的正常执 阅读全文
posted @ 2017-09-17 22:28 不系之舟coder 阅读(3422) 评论(0) 推荐(0)
摘要:Hadoop是什么? Hadoop是一个能够对大量数据进行分布式处理的软件框架,实现了Google的MapReduce编程模型和框架,能够把应用程序分割成许多的 小的工作单元,并把这些单元放到任何集群节点上执行。在MapReduce中,一个准备提交执行的应用程序称为“作业(job)”,而从一个作业划 阅读全文
posted @ 2017-09-14 21:03 不系之舟coder 阅读(311) 评论(0) 推荐(0)
摘要:一、回收站简介: 在HDFS里,删除文件时,不会真正的删除,其实是放入回收站/trash,回收站里的文件可以快速恢复。 可以设置一个时间阀值,当回收站里文件的存放时间超过这个阀值或是回收站被清空时,文件才会被彻底删除,并且释放占用的数据块。 二、设置: Hadoop的回收站trash功能默认是关闭的 阅读全文
posted @ 2017-09-12 20:02 不系之舟coder 阅读(286) 评论(0) 推荐(0)