摘要:
应用场景: 用户每天会在网站上产生各种各样的行为,比如浏览网页,下单等,这种行为会被网站记录下来,形成用户行为日志,并存储在hdfs上。格式如下: 17:03:35.012ᄑpageviewᄑ{"device_id":"4405c39e85274857bbef58e013a08859","user_ 阅读全文
posted @ 2018-09-02 18:18
yx-zhang
阅读(1343)
评论(0)
推荐(0)
摘要:
首先了解下资源调度管理框架Yarn。 Yarn的结构(如图): Resource Manager (rm)负责调度管理整个集群上的资源,而每一个计算节点上都会有一个Node Manager(nm)来负责该节点上的计算资源,我们把计算资源抽象成一个个Container(容器),每个Container包 阅读全文
posted @ 2018-09-02 01:36
yx-zhang
阅读(406)
评论(0)
推荐(0)
摘要:
一.Map的原理和运行流程 Map的输入数据源是多种多样的,我们使用hdfs作为数据源。文件在hdfs上是以block(块,Hdfs上的存储单元)为单位进行存储的。 1.分片 我们将这一个个block划分成数据分片,即Split(分片,逻辑划分,不包含具体数据,只包含这些数据的位置信息),那么上图中 阅读全文
posted @ 2018-09-02 00:16
yx-zhang
阅读(5637)
评论(0)
推荐(2)

浙公网安备 33010602011771号