摘要: 我们之前已经在Windows中安装好了Hadoop,并且配置了环境变量。如果要在本地上运行的,还需要这两个文件,可以去找一下,放到Hadoop的bin目录下面。这样我们写好的mr程序就可以直接在Windows上面运行了,不用再去打包上传等等。 阅读全文
posted @ 2022-04-08 14:50 码码小菜鸟 阅读(167) 评论(0) 推荐(0)
摘要: map过程已经写完了,上面那个流程我们涉及到了泛型以及序列化,我们要知道每个参数代表的含义,这样有助于我们理解整个流程。 下面我们开始reduce,这个过程我们要把map输出的键值对把key值相同的放在一起,具体的流程我们看代码: package MR.wc;import org.apache.ha 阅读全文
posted @ 2022-04-08 11:52 码码小菜鸟 阅读(85) 评论(0) 推荐(0)
摘要: 打开IDEA,File——new ——Project,新建一个项目 我们已经安装好了maven,不用白不用 这里不要选用骨架,Next。在写上Groupid,Next。 写上项目名称,finish。ok。 一个项目就建好了,他长这样: 新建的项目要配置一下maven。毕竟我们马上就要用它。然后导入依 阅读全文
posted @ 2022-04-07 23:06 码码小菜鸟 阅读(143) 评论(0) 推荐(0)
摘要: 先贴一战mr流程图,新手朋友不要看见这个图就头晕,我们后续会使用java API实现几个案例,帮助我们更好的理解各个环节,比如切片,文件读取,Map,combine,Reduce,shuffle等等。案例写完以后相信对mr流程会有一个比较深刻的理解。 具体的太理论的东西没什么好讲的,我们这里比较偏重 阅读全文
posted @ 2022-04-07 21:44 码码小菜鸟 阅读(63) 评论(0) 推荐(0)
摘要: 1,下载Hadoop,解压 2,配置Hadoop环境变量 右键此电脑——属性 高级系统设置 环境变量 新建一个HADOOP_HOME 添加到path 3,cmd窗口查看安装情况:hadoop version 阅读全文
posted @ 2022-04-07 20:53 码码小菜鸟 阅读(219) 评论(0) 推荐(0)
摘要: 现在Hadoop集群已经搭建好了,也了解了Hadoop操作的一些基本命令。现在我们要用java操作Hadoop。这里我们使用的ide是IDEA和maven。IDEA的话去官网下载一个,用激活码激活就ok。maven我用的是3.83版本,下载安装就行。注意配置一下环境变量。在配置文件里面修改一下本地仓 阅读全文
posted @ 2022-04-07 20:33 码码小菜鸟 阅读(39) 评论(0) 推荐(0)
摘要: 1,我们在第一个节点上创建一个文件:vim word.txt -hdfs dfs -put(原文件目录) (目标文件目录)这是一个上传文件的命令 输入命令:hdfs dfs -put /opt/data/words.txt / 这个命令的意思就是我们要从linux上上传一个文件到hdfs,这个文件的 阅读全文
posted @ 2022-04-07 16:42 码码小菜鸟 阅读(1826) 评论(0) 推荐(0)
摘要: 我们创建了三台虚拟机,不同的机器有不同的角色,我们需要做一个部署规划 hdfs系统分配:101是namenode,接收客户端请求,保存元数据,当然了,这台机器空闲资源的时候,也可以做一些计算存储,给他分配一个datanode的角色。102数据主要用来存储数据内容存储数据块,同时存储block的元数据 阅读全文
posted @ 2022-04-07 16:16 码码小菜鸟 阅读(156) 评论(0) 推荐(0)
摘要: 新建的三台虚拟机之间需要设置免密码登录 注意:三台机器都要操作,如果使用xshell的童鞋就有福了,可以使用选项卡工具同时操作: 阅读全文
posted @ 2022-04-06 16:17 码码小菜鸟 阅读(27) 评论(0) 推荐(0)
摘要: 之前我们搭建了一个伪分布式Hadoop系统,只有一台机器。现在我们再搭建两台虚拟机。 1,先关闭Linux。右键点击虚拟机 2,快照——拍摄快照 如图: 拍摄快照。 3,进入快照管理 4,快照1——克隆 5,下一步 6,下一步 7,创建完整克隆,下一步 8,设置虚拟机名称,设置位置,这个位置要与之前 阅读全文
posted @ 2022-04-06 15:47 码码小菜鸟 阅读(235) 评论(0) 推荐(0)