随笔分类 -  大数据

摘要:MapReduce简介 MapReduce是一种分布式计算模型,是Google提出的,主要用于搜索领域,解决海量数据的计算问题。 MR有两个阶段组成:Map和Reduce,用户只需实现map()和reduce()两个函数,即可实现分布式计算。 MapReduce执行流程 MapReduce原理 Ma 阅读全文
posted @ 2020-05-28 17:54 沫小淘 阅读(1020) 评论(0) 推荐(0)
摘要:概览 首先我们来认识一下HDFS, HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。它其实是将一个大文件分成若干块保存在不同服务器的多个节点中。通过联网让用户感觉像是在本地一样查看文件,为了降低文件丢失造成的错误,它会为每个小文件复制多个副本(默 阅读全文
posted @ 2020-05-28 17:52 沫小淘 阅读(972) 评论(0) 推荐(0)