随笔分类 -  hadoop

摘要:问题描述 启动hadoop,报出这样的错误: 问题解决 还是按照我之前设置的ssh免密登录的方法解决哒(博客记录的作用在此刻体现得淋漓尽致~~~): 博客地址 解决啦: 阅读全文
posted @ 2023-11-22 01:29 yesyes1 阅读(57) 评论(0) 推荐(0)
摘要:问题描述 安装hadoop的环境时,遇到了这个问题: 问题解决 将下面这段代码复制,粘贴到hadoop下载目录下的/etc/hadoop/hadoop-env.sh里面: export HDFS_NAMENODE_USER=root export HDFS_DATANODE_USER=root ex 阅读全文
posted @ 2023-11-22 00:58 yesyes1 阅读(160) 评论(0) 推荐(0)
摘要:问题描述 更改了JDK版本之后,再次运行又出现了这个错误: 问题解决 经过查阅相关资料,发现是自己定义的hdfs的路径不太对,本来写的是这样的: 然后自己确实不记得配置环境时配置的是多少,就看了看这个文件core.site.xml: cat core-site.xml 然后看到这里: 使用的端口号是 阅读全文
posted @ 2023-10-10 14:32 yesyes1 阅读(294) 评论(0) 推荐(0)
摘要:问题描述 Exception in thread "main" java.lang.IllegalArgumentException: Pathname from hdfs://node1:9000 is not a valid DFS filename. 应该就是JDK版本不一致的问题; 问题解决 阅读全文
posted @ 2023-10-10 14:05 yesyes1 阅读(65) 评论(0) 推荐(0)
摘要:问题描述 使用hadoop在虚拟机里面运行打包的程序出错: 问题解决 我一开始用的是JDK17,然后换成了JDK8,再将程序打包,就解决啦! 就是我本机的JDK版本比虚拟机里面的JDK版本高太多了,改成低版本的就ok啦! 阅读全文
posted @ 2023-10-06 16:33 yesyes1 阅读(108) 评论(0) 推荐(0)
摘要:1、自己准备一个数据量比较小的txt文件 然后将其上传到虚拟机本地: 之后上传到hdfs里面: 2、编写代码 1、引入相关依赖 <dependencies> <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-common 阅读全文
posted @ 2023-10-06 16:15 yesyes1 阅读(21) 评论(0) 推荐(0)
摘要:1、概念 2、代码实现 自定义一个类: 在JobMain(与之前的基本一样)里面: 阅读全文
posted @ 2023-10-05 15:56 yesyes1 阅读(26) 评论(0) 推荐(0)
摘要:1、概念和原理--结构化对象转换为字节流 2、编程流程(举例说明) 1、读取文件为键值对 <偏移量,文件内容> 2、Map阶段 3、排序 4、Reduce阶段 5、保存结果--使用TextOutputFormat类 3、代码编写 1、自定义类型和比较器--自定义命名为SortBean 并实现接口Wr 阅读全文
posted @ 2023-10-05 15:31 yesyes1 阅读(17) 评论(0) 推荐(0)
摘要:1、概念和原理 同一个分区的数据会发送给同一个reduce; 可以简单解释为————标记一样,放到一个reduce里面: 2、代码编写步骤(以中奖编号是否>15进行分区) 1、定义Mapper 可以自定义名称为PartitionMapper,并继承Mapper类: 并重写map方法: 2、自定义pa 阅读全文
posted @ 2023-10-04 21:01 yesyes1 阅读(25) 评论(0) 推荐(0)
摘要:问题描述 MapReduce打包之后,运行出错; 问题解决 加上这么一句代码(在创建好Job对象之后): job.setJarByClass(JobMain.class); 阅读全文
posted @ 2023-10-04 19:43 yesyes1 阅读(14) 评论(0) 推荐(0)
摘要:1、yarn集群运行 先将之前写好的MapReduce程序进行打包--Maven-->package; 打包完成之后的jar包在target目录下可以找到!!! 之后将jar包上传到我们的虚拟机文件夹里面去; 之后输入命令: hadoop jar jar包名称 jar包主类的全路径名称 回车之后开始 阅读全文
posted @ 2023-10-04 19:37 yesyes1 阅读(19) 评论(0) 推荐(0)
摘要:一、案例概述 1、第一步--变成偏移量的K1,V1(这一步不需要我们自己写) 2、进入Map阶段 输出新的<K2,V2>的键值对; 3、Shuffle阶段 分区、排序、规约、分组 输出新的键值对: 4、Reduce阶段 转换为<K3,V3>的新的形式的键值对; 利用TextOutputFormat的 阅读全文
posted @ 2023-10-04 18:25 yesyes1 阅读(68) 评论(0) 推荐(0)
摘要:1、相关介绍--分而治之 MapReduce分布在Yarn集群 2、设计构思(以wordcount为例) 第一步-->读取文件,读取为键值对类型,偏移量,该行的内容; 第二步(Map阶段)-->转换成为另一种键值对模式,单词,1; 第三步(Suffle阶段)-->转换成另一种键值对模式,单词,<有几 阅读全文
posted @ 2023-10-03 21:44 yesyes1 阅读(6) 评论(0) 推荐(0)
摘要:我看到了这个 跟着实操一下! 1、加载数据(已经提供了csv文件) 建库建表 >这个比较简单,根据文件的字段名创建合适的表; create table msg( msg_time string comment "消息发送时间", sender_name string comment "发送人昵称", 阅读全文
posted @ 2023-09-27 18:06 yesyes1 阅读(46) 评论(0) 推荐(0)
摘要:1、新建一个名为file1.txt的txt文件存储数据 2、在sss数据库中新创建一个名为docs的表 create table if not exists docs(line string); 3、将file1.txt的数据导入到新创建的docs表中 load data local inpath 阅读全文
posted @ 2023-09-19 15:17 yesyes1 阅读(28) 评论(0) 推荐(0)
摘要:问题描述 今天再次打开虚拟机(之前交完作业之后,就不敢再打开了,害怕看到报错信息),打开hive之后,启用hive命令时,发现了这个问题; 问题解决 经查阅资料发现,原来是因为我再使用hive命令之前,没有开启metastore服务和hiveserver2服务,先开启了这两个服务,再进入hive里面 阅读全文
posted @ 2023-09-19 14:54 yesyes1 阅读(1178) 评论(0) 推荐(0)
摘要:1、导入相关依赖 <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-client --> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>had 阅读全文
posted @ 2023-09-18 19:26 yesyes1 阅读(103) 评论(0) 推荐(0)
摘要:前提是配置好hadoop的相关环境 1、分析网页,确定采集的数据 我们需要获取到该网页的如下几个信息: 请求信息: url——网站页面地址 设置这个请求的请求头: headers——(user-agent/referer/origin/cookie) 设置这个请求的传递数据: data——(firs 阅读全文
posted @ 2023-09-18 18:15 yesyes1 阅读(117) 评论(0) 推荐(0)
摘要:1、下载对应的hadoop的压缩包和winutils包 并将下载好的包解压到自己对应的目录下面; 2、添加环境变量 在系统变量那里新增hadoop的本机路径: 在系统变量的Path里面新增: (C:\Program Files\NVIDIA Corporation\Nsight Compute 20 阅读全文
posted @ 2023-09-14 19:39 yesyes1 阅读(19) 评论(0) 推荐(0)
摘要:问题描述 hbase配置好之后,使用hbase shell尝试一下关于数据库的操作,出现了这样的问题: 问题解决 许多都是什么hadoop的安全模式没有关闭出现的错误,我这个根本没开安全模式! 发现原来是hbase下面的jar包和hadoop下面的jar包冲突了,我这里选择删掉hbase这里的这个: 阅读全文
posted @ 2023-09-13 15:04 yesyes1 阅读(163) 评论(0) 推荐(0)