摘要: 摘要: 通过腾讯shuffle部署对shuffle过程进行详解 摘要:腾讯分布式数据仓库基于开源软件Hadoop和Hive进行构建,TDW计算引擎包括两部分:MapReduce和Spark,两者内部都包含了一个重要的过程—Shuffle。本文对Shuffle过程进行解析,并对两个计算引擎的Shuff 阅读全文
posted @ 2017-04-09 23:15 Jonson Li 阅读(627) 评论(0) 推荐(1)
摘要: 开始聊MapReduce,MapReduce是Hadoop的计算框架,我学Hadoop是从Hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技 阅读全文
posted @ 2017-04-09 23:03 Jonson Li 阅读(286) 评论(0) 推荐(0)
摘要: Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算。 HDFS是Google File System(GFS)的开源实现。 MapReduce是Google MapReduce的开源实现。 HDFS和MapRe 阅读全文
posted @ 2017-04-09 22:22 Jonson Li 阅读(409) 评论(0) 推荐(0)
摘要: Apache Hadoop 是最流行的大数据处理工具之一。它多年来被许多公司成功部署在生产中。尽管 Hadoop 被视为可靠的、可扩展的、富有成本效益的解决方案,但大型开发人员社区仍在不断改进它。最终,2.0 版提供了多项革命性功能,其中包括 Yet Another Resource Negotia 阅读全文
posted @ 2017-04-09 19:12 Jonson Li 阅读(355) 评论(0) 推荐(0)