MapReduce初步

最基本的海量数据分流思想

• 传统Hash，最基本的划分方法

　　– 如何将大数据、流量均分到N台服务器

　　– 找到合理的key，hash（key）尽量分布均匀

　　– hash(key)mod N == 0 分到第0台，

　　– hash(key)mod N == i 分到第i台

　　– hash(key)mod N == N-1 分到第N-1台

• 随机划分

• 一致性Hash：支持动态增长，更高级的划分方法

• MapReduce映射

　　– 分：map

　　　　• 把复杂的问题分解为若干“简单的任务”

　　– 合：reduce

• 借鉴函数式的编程方式

• 用户只需要实现两个函数接口：

　　 • Map

　　　　(in_key, in_value) -> (out_key, intermediate_value) list

　　• Reduce

　　　　(out_key, intermediate_value list) ->out_value list

• 两个重要的进程

　　– JobTracker

　　　　 • 主进程，负责接收客户作业提交，调度任务到作节点上运行，并提供诸如监控工作节点状态及任务进度等管理功能，一个MapReduce集群有一个jobtracker，一般运行在可靠的硬件上。

　　　　 • tasktracker是通过周期性的心跳来通知jobtracker其当前的健康状态，每一次心跳包含了可用的map和 reduce任务数目、占用的数目以及运行中的任务详细信息。Jobtracker利用一个线程池来同时处理心跳和客户请求。

　　 – TaskTracker

　　　　 • 由jobtracker指派任务，实例化用户程序，在本地执行任务并周期性地向jobtracker汇报状态。在每一个工作节点上永远只会有一个tasktracker

posted @ 2019-10-26 14:52 AI_Engineer 阅读(120) 评论(0) 收藏举报

刷新页面返回顶部