随笔分类 -  Hadoop

The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing
摘要:对于文件的存储、传输、磁盘IO读取等操作在使用Hadoop生态圈的存储系统时是非常常见的,而文件的大小等直接影响了这些操作的速度以及对磁盘空间的消耗。 此时 阅读全文
posted @ 2020-12-31 11:12 大数据学习与分享 阅读(506) 评论(0) 推荐(0)
摘要:HDFS是大数据领域比较知名的分布式存储系统,作为大数据相关从业人员,每天处理HDFS上的文件数据是常规操作。这就容易带来一个问题,实际操作中对重要数据文件的误删,那么如何恢复这些文件,就显得尤为重要 阅读全文
posted @ 2020-12-01 09:03 大数据学习与分享 阅读(3994) 评论(0) 推荐(0)
摘要:Hadoop调优 阅读全文
posted @ 2020-11-10 14:32 大数据学习与分享 阅读(397) 评论(0) 推荐(0)
摘要:笔者将分上下篇文章进行阐述Spark和MapReduce的对比,首篇侧重于"宏观"上的对比,更多的是笔者总结的针对"相对于MapReduce我们为什么选择Spark"之类的问题的几个核心归纳点;次篇则从任务处理级别运用的并行机制/计算模型方面上对比,更多的是让大家对Spark为什么比MapReduce快有一个更深、更全面的认识。通过两篇文章的解读,希望帮助大家对Spark和MapReduce有一个更深入的了解,并且能够在遇到诸如"MapReduce相对于Spark的局限性?"等类似的面试题时能够得到较好地表现,顺利拿下offer 阅读全文
posted @ 2020-11-04 11:47 大数据学习与分享 阅读(1983) 评论(0) 推荐(0)
摘要:HDFS(Hadoop Distributed File System)分布式文件存储系统,主要为各类分布式计算框架如Spark、MapReduce等提供海量数据存储服务,同时HBase、Hive底层存储也依赖于HDFS。HDFS提供一个统一的抽象目录树,客户端可通过路径来访问文件,如hdfs://namenode:port/dir-a/a.data。HDFS集群分为两大角色:Namenode、Datanode(非HA模式会存在Secondary Namenode) 阅读全文
posted @ 2020-10-30 19:56 大数据学习与分享 阅读(699) 评论(0) 推荐(1)
摘要:MapReduce是Hadoop核心三剑客之一,设计思想来源于谷歌三篇论文之一的《分布式计算模型》。作为一个分布式运算程序编程框架,需要用户实现业务逻辑代码并和它自带的默认组件整合成完整的分布式运算程序,并发运行在Hadoop集群上 阅读全文
posted @ 2020-10-28 14:11 大数据学习与分享 阅读(1595) 评论(0) 推荐(0)
摘要:HDFS(Hadoop Distributed File System)分布式文件存储系统,主要为各类分布式计算框架如Spark、MapReduce等提供海量数据存储服务,同时HBase、Hive底层存储也依赖于HDFS。HDFS提供一个统一的抽象目录树,客户端可通过路径来访问文件,如hdfs://namenode:port/dir-a/a.data。HDFS集群分为两大角色:Namenode、Datanode(非HA模式会存在Secondary Namenode) 阅读全文
posted @ 2020-10-27 09:11 大数据学习与分享 阅读(1305) 评论(0) 推荐(0)
摘要:Yarn(Yet Another Resource Negotiator)是一个资源调度平台,负责为运算程序如Spark、MapReduce分配资源和调度,不参与用户程序内部工作。同样是Master/Slave架构 阅读全文
posted @ 2020-10-22 13:08 大数据学习与分享 阅读(670) 评论(0) 推荐(0)