yx-zhang

2018年9月3日

摘要：数据序列化我们知道，数据在分布式系统上运行程序数据是需要在机器之间通过网络传输的，这些数据必须被编码成一个个的字节才可以进行传输，这个其实就是我们所谓的数据序列化。数据中心中，最稀缺的资源就是网络带宽！在数据量巨大的分布式系统中，数据的紧凑高效传输和解析十分重要。什么是数据的序列化？数据的序列阅读全文

posted @ 2018-09-03 01:50 yx-zhang 阅读(267) 评论(0) 推荐(0)

2018年9月2日

【原创】MapReduce实战（一）

摘要：应用场景：用户每天会在网站上产生各种各样的行为，比如浏览网页，下单等，这种行为会被网站记录下来，形成用户行为日志，并存储在hdfs上。格式如下： 17:03:35.012ᄑpageviewᄑ{"device_id":"4405c39e85274857bbef58e013a08859","user_ 阅读全文

posted @ 2018-09-02 18:18 yx-zhang 阅读(1347) 评论(0) 推荐(0)

【原创】MapReduce程序如何在集群上执行

摘要：首先了解下资源调度管理框架Yarn。 Yarn的结构(如图): Resource Manager (rm)负责调度管理整个集群上的资源，而每一个计算节点上都会有一个Node Manager(nm)来负责该节点上的计算资源，我们把计算资源抽象成一个个Container(容器)，每个Container包阅读全文

posted @ 2018-09-02 01:36 yx-zhang 阅读(412) 评论(0) 推荐(0)

【原创】MapReduce运行原理和过程

摘要：一．Map的原理和运行流程 Map的输入数据源是多种多样的，我们使用hdfs作为数据源。文件在hdfs上是以block(块，Hdfs上的存储单元)为单位进行存储的。 1.分片我们将这一个个block划分成数据分片，即Split（分片，逻辑划分，不包含具体数据，只包含这些数据的位置信息）,那么上图中阅读全文

posted @ 2018-09-02 00:16 yx-zhang 阅读(5674) 评论(0) 推荐(2)

公告