随笔分类 -  大数据

hadoop,spark
摘要:RDD初始以及常见transformations联系(maven打包jar)@(RDD) 环境准备 IDEA2022 maven3.8.6 Hadoop3-3-0集群 Spark3-3-0 以上配置可查看我的往期博客 maven框架 目录结构 pom文件 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi 阅读全文
posted @ 2022-11-01 20:42 huhy3 阅读(113) 评论(0) 推荐(0)
摘要:maven打包jar包给spark@(maven打包jar包给spark) 安装maven 官网安装maven 1,官网下载到本地,Binary是可执行版本,已经编译好可以直接使用。 Source是源代码版本,需要自己编译成可执行软件才可使用。 2,查看安装路径,配置环境变量 3,配置好环境变量 4,cmd测试 配置本地仓库 1,M 阅读全文
posted @ 2022-10-06 17:25 huhy3 阅读(525) 评论(0) 推荐(0)
摘要:spark on yarn部署@(部署spark) 环境准备 基于已经搭建好的hadoop3.3.0集群 使用spark3.3.0,注意hadoop要和spark版本要对应(去官网查看) 官网地址:https://archive.apache.org/dist/spark/spark-3.3.0/ 配置spark 确保HADOO 阅读全文
posted @ 2022-09-24 12:33 huhy3 阅读(655) 评论(0) 推荐(0)
摘要:Ubuntu搭建全分布式Hadoop@(Ubuntu搭建全分布式Hadoop) 采用三台节点搭建全分布式 主机名 | IP地址 | master | 192.168.200.100 slave1 | 192.168.200.101 slave2 | 192.168.200.102 软件准备:Ubuntu22.04服务器版,VMware 阅读全文
posted @ 2022-09-09 21:45 huhy3 阅读(215) 评论(0) 推荐(0)