摘要: 参考 https://blog.csdn.net/u014313009/article/details/38072269 首先开始的是 shuffle-map阶段的流程 依据上图讲解 1、Partition操作 map的输出结果是多个键值对(key和value),将由reduce合并,而集群中有多个 阅读全文
posted @ 2019-08-16 10:42 某年某月某某人 阅读(252) 评论(0) 推荐(0)
摘要: 参考 https://blog.csdn.net/qq_25948717/article/details/80554809 根据下图讲解 首先说两个概念:调度器和应用程序管理器 Hadoop2.x中使用的调度器是Scheduler,它的职能仅仅是根据各个应用程序的资源需求进行资源分配,如下图 再下来 阅读全文
posted @ 2019-08-15 18:13 某年某月某某人 阅读(501) 评论(0) 推荐(0)
摘要: 此过程没有在服务器搭建的具体步骤,仅有思路 zookeeper集群管控 Hadoop2.0之后,达到了元数据(用于存储NameNode寻找DataNode的信息)的实时备份,所有有两台NameNode(standby、active)。不管你Hadoop集群有多少节点,NameNode只有两个 两个N 阅读全文
posted @ 2019-08-15 16:12 某年某月某某人 阅读(122) 评论(0) 推荐(0)
摘要: 如上图,如果我HDFS中,word目录下有这四个文件,那么它能分为几个切片呢??? **** MapTask的数量=切片数量 切块也分为两种 一种是物理切块,一种是逻辑切块 前者是将文件真正的变成文件块 后者是用对象来封装每个文件块的信息,比如文件夹的起始位置、和长度。这样的来分切块的作用,假如我一 阅读全文
posted @ 2019-08-15 14:29 某年某月某某人 阅读(288) 评论(0) 推荐(0)
摘要: 作用就是,合并...... 看下图 combine把map方法产生的多个key和value。合并到一个新的key和value,在传入到reducer中 合并的目的是为了减少网络传输 阅读全文
posted @ 2019-08-14 10:54 某年某月某某人 阅读(541) 评论(0) 推荐(0)
摘要: 参考 https://www.cnblogs.com/edisonchou/p/4297828.html Hadoop中分区,如果不指定的话,他会使用自带的HashPartitioner 如果你业务中有需求,需要使用分区来查看文件的时候,就需要自己定义分区来使用 例如上图,需要统计手机号码的信息,就 阅读全文
posted @ 2019-08-13 16:46 某年某月某某人 阅读(136) 评论(0) 推荐(0)
摘要: 参考 https://www.cnblogs.com/dtj007/p/5485629.html 因为我们大家知道,分别有两种设置 一种设置Mapper 一种是Reducer 如果一样的话,我们只需要记得,只设置Reducer的返回执行结果即可 如果不一样的话,都需要设置的 给张图片..... 如果 阅读全文
posted @ 2019-08-13 15:55 某年某月某某人 阅读(67) 评论(0) 推荐(0)
摘要: 第一步看linux主机中看看配置主机名文件对不对? 如果对就配置本地电脑的 hosts映射文件.... 再试一下就可以了 阅读全文
posted @ 2019-08-08 17:45 某年某月某某人 阅读(116) 评论(0) 推荐(0)
摘要: 这个忘记 要输好多次密码的 。。 第一步 不用输入密码的 !!!!!!!!! 一定要三台机器 都验证一样,分别使用 ssh 主机名 验证 包括自己的主机 阅读全文
posted @ 2019-08-08 17:01 某年某月某某人 阅读(160) 评论(0) 推荐(0)
摘要: 总结 有 "!"的时候,用&&连接 ,没有 "!"的时候 用|| 连接 ............ 阅读全文
posted @ 2019-08-07 10:09 某年某月某某人 阅读(130) 评论(0) 推荐(0)