hadoop - 随笔分类 - yesyes1

Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password).问题的解决

摘要：问题描述启动hadoop，报出这样的错误：问题解决还是按照我之前设置的ssh免密登录的方法解决哒（博客记录的作用在此刻体现得淋漓尽致~~~）：博客地址解决啦：阅读全文

posted @ 2023-11-22 01:29 yesyes1 阅读(57) 评论(0) 推荐(0)

ERROR: but there is no HDFS_NAMENODE_USER defined.问题的出现

摘要：问题描述安装hadoop的环境时，遇到了这个问题：问题解决将下面这段代码复制，粘贴到hadoop下载目录下的/etc/hadoop/hadoop-env.sh里面： export HDFS_NAMENODE_USER=root export HDFS_DATANODE_USER=root ex 阅读全文

posted @ 2023-11-22 00:58 yesyes1 阅读(160) 评论(0) 推荐(0)

在hadoop虚拟机里面使用hadoop jar运行打包文件，出现Exception in thread "main" org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.RpcNoSuchProtocolException): Unknown protocol: org.apache.hadoop.的问题的解决

摘要：问题描述更改了JDK版本之后，再次运行又出现了这个错误：问题解决经过查阅相关资料，发现是自己定义的hdfs的路径不太对，本来写的是这样的：然后自己确实不记得配置环境时配置的是多少，就看了看这个文件core.site.xml: cat core-site.xml 然后看到这里：使用的端口号是阅读全文

posted @ 2023-10-10 14:32 yesyes1 阅读(294) 评论(0) 推荐(0)

MapReduce程序打包后，在hdfs使用报错，版本不一致

摘要：问题描述 Exception in thread "main" java.lang.IllegalArgumentException: Pathname from hdfs://node1:9000 is not a valid DFS filename. 应该就是JDK版本不一致的问题；问题解决阅读全文

posted @ 2023-10-10 14:05 yesyes1 阅读(65) 评论(0) 推荐(0)

Exception in thread "main" java.lang.UnsupportedClassVersionError: org/example/JobMain has been compiled by a more recent version of the Java Runtime (class file version 61.0), 问题的解决（已解决）

摘要：问题描述使用hadoop在虚拟机里面运行打包的程序出错：问题解决我一开始用的是JDK17，然后换成了JDK8，再将程序打包，就解决啦！就是我本机的JDK版本比虚拟机里面的JDK版本高太多了，改成低版本的就ok啦! 阅读全文

posted @ 2023-10-06 16:33 yesyes1 阅读(108) 评论(0) 推荐(0)

实践一下前几天的wordCount案例

摘要：1、自己准备一个数据量比较小的txt文件然后将其上传到虚拟机本地：之后上传到hdfs里面： 2、编写代码 1、引入相关依赖 <dependencies> <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-common 阅读全文

posted @ 2023-10-06 16:15 yesyes1 阅读(21) 评论(0) 推荐(0)

MapReduce之学习规约

摘要：1、概念 2、代码实现自定义一个类：在JobMain（与之前的基本一样）里面：阅读全文

posted @ 2023-10-05 15:56 yesyes1 阅读(26) 评论(0) 推荐(0)

MapReduce的排列和序列化的学习

摘要：1、概念和原理--结构化对象转换为字节流 2、编程流程（举例说明） 1、读取文件为键值对 <偏移量，文件内容> 2、Map阶段 3、排序 4、Reduce阶段 5、保存结果--使用TextOutputFormat类 3、代码编写 1、自定义类型和比较器--自定义命名为SortBean 并实现接口Wr 阅读全文

posted @ 2023-10-05 15:31 yesyes1 阅读(17) 评论(0) 推荐(0)

MapReduce分区的学习

摘要：1、概念和原理同一个分区的数据会发送给同一个reduce；可以简单解释为————标记一样，放到一个reduce里面： 2、代码编写步骤（以中奖编号是否>15进行分区） 1、定义Mapper 可以自定义名称为PartitionMapper，并继承Mapper类：并重写map方法： 2、自定义pa 阅读全文

posted @ 2023-10-04 21:01 yesyes1 阅读(25) 评论(0) 推荐(0)

如果MapReduce打包之后，运行不成功

摘要：问题描述 MapReduce打包之后，运行出错；问题解决加上这么一句代码(在创建好Job对象之后)： job.setJarByClass(JobMain.class); 阅读全文

posted @ 2023-10-04 19:43 yesyes1 阅读(14) 评论(0) 推荐(0)

MapReduce运行模式

摘要：1、yarn集群运行先将之前写好的MapReduce程序进行打包--Maven-->package；打包完成之后的jar包在target目录下可以找到！！！之后将jar包上传到我们的虚拟机文件夹里面去；之后输入命令： hadoop jar jar包名称 jar包主类的全路径名称回车之后开始阅读全文

posted @ 2023-10-04 19:37 yesyes1 阅读(19) 评论(0) 推荐(0)

MapReduce学习二之WordCount案例

摘要：一、案例概述 1、第一步--变成偏移量的K1，V1（这一步不需要我们自己写） 2、进入Map阶段输出新的<K2,V2>的键值对； 3、Shuffle阶段分区、排序、规约、分组输出新的键值对： 4、Reduce阶段转换为<K3,V3>的新的形式的键值对；利用TextOutputFormat的阅读全文

posted @ 2023-10-04 18:25 yesyes1 阅读(68) 评论(0) 推荐(0)

MapReduce学习一

摘要：1、相关介绍--分而治之 MapReduce分布在Yarn集群 2、设计构思（以wordcount为例）第一步-->读取文件，读取为键值对类型，偏移量,该行的内容；第二步（Map阶段）-->转换成为另一种键值对模式，单词,1；第三步（Suffle阶段）-->转换成另一种键值对模式，单词,<有几阅读全文

posted @ 2023-10-03 21:44 yesyes1 阅读(6) 评论(0) 推荐(0)

案例实操基础版--加载数据+数据清洗(5W条数据)

摘要：我看到了这个跟着实操一下！ 1、加载数据（已经提供了csv文件）建库建表 >这个比较简单，根据文件的字段名创建合适的表； create table msg( msg_time string comment "消息发送时间", sender_name string comment "发送人昵称", 阅读全文

posted @ 2023-09-27 18:06 yesyes1 阅读(46) 评论(0) 推荐(0)

hive的相关学习1---wordCount实例

摘要：1、新建一个名为file1.txt的txt文件存储数据 2、在sss数据库中新创建一个名为docs的表 create table if not exists docs(line string); 3、将file1.txt的数据导入到新创建的docs表中 load data local inpath 阅读全文

posted @ 2023-09-19 15:17 yesyes1 阅读(28) 评论(0) 推荐(0)

FAILED: HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient问题的解决

摘要：问题描述今天再次打开虚拟机（之前交完作业之后，就不敢再打开了，害怕看到报错信息），打开hive之后，启用hive命令时，发现了这个问题；问题解决经查阅资料发现，原来是因为我再使用hive命令之前，没有开启metastore服务和hiveserver2服务，先开启了这两个服务，再进入hive里面阅读全文

posted @ 2023-09-19 14:54 yesyes1 阅读(1178) 评论(0) 推荐(0)

HttpClient采集页面数据

摘要：1、导入相关依赖  <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>had 阅读全文

posted @ 2023-09-18 19:26 yesyes1 阅读(103) 评论(0) 推荐(0)

Python实现数据采集

摘要：前提是配置好hadoop的相关环境 1、分析网页，确定采集的数据我们需要获取到该网页的如下几个信息：请求信息： url——网站页面地址设置这个请求的请求头： headers——（user-agent/referer/origin/cookie）设置这个请求的传递数据： data——（firs 阅读全文

posted @ 2023-09-18 18:15 yesyes1 阅读(117) 评论(0) 推荐(0)

配置本机的hadoop环境

摘要：1、下载对应的hadoop的压缩包和winutils包并将下载好的包解压到自己对应的目录下面； 2、添加环境变量在系统变量那里新增hadoop的本机路径：在系统变量的Path里面新增： (C:\Program Files\NVIDIA Corporation\Nsight Compute 20 阅读全文

posted @ 2023-09-14 19:39 yesyes1 阅读(19) 评论(0) 推荐(0)

使用hbase命令行报错问题的解决

摘要：问题描述 hbase配置好之后，使用hbase shell尝试一下关于数据库的操作，出现了这样的问题：问题解决许多都是什么hadoop的安全模式没有关闭出现的错误，我这个根本没开安全模式！发现原来是hbase下面的jar包和hadoop下面的jar包冲突了，我这里选择删掉hbase这里的这个：阅读全文

posted @ 2023-09-13 15:04 yesyes1 阅读(163) 评论(0) 推荐(0)

liuzijin

随笔分类 - hadoop

公告