3. 从0到1搭建DeltaLake大数据平台 - 安装配置Hadoop
要在已经安装好Spark的集群上配置YARN(Yet Another Resource Negotiator),你可以按照以下步骤进行:
1. 安装 Hadoop
1.1 下载 Hadoop
YARN是Hadoop的一部分,因此首先需要安装Hadoop。你可以从Apache Hadoop的官方网站下载合适的版
sudo tar -xvzf /home/sparkuser/temp/hadoop-3.4.1.tar.gz -C /opt/hadoop --strip-components=1
sudo chown -R sparkuser:sparkuser /opt/hadoop
1.2 设置环境变量
在你的用户的 .bashrc 或 .bash_profile 文件中添加Hadoop的环境变量:
//export HADOOP_HOME=/opt/hadoop
//export PATH=$PATH:$HADOOP_HOME/bin
echo "export HADOOP_HOME=/opt/hadoop" >> /home/sparkuser/.bashrc
echo "export PATH=\$PATH:\$HADOOP_HOME/bin" >> /home/sparkuser/.bashrc
然后执行:
source ~/.bashrc
2. 配置 Hadoop
在所有节点上,修改 Hadoop 配置文件。进入 Hadoop 配置目录:
cd etc/hadoop
2.1 修改权限(可选)
确保 Hadoop 目录权限正确:
sudo mkdir -p /usr/local/hadoop/dfs/name
sudo mkdir -p /usr/local/hadoop/dfs/data
sudo chown -R $(whoami):$(whoami) /usr/local/hadoop
2.2 core-site.xml
编辑 core-site.xml,配置 HDFS 的基本信息:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> <!-- 将 master 替换为实际的 Master 节点 IP 或主机名 --> </property> </configuration>
2.3 hdfs-site.xml
编辑 hdfs-site.xml,设置 HDFS 的数据存储位置:
<configuration> <property> <name>dfs.replication</name> <value>2</value> <!-- 根据需要设置副本数 --> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:///usr/local/hadoop/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:///usr/local/hadoop/dfs/data</value> </property> </configuration>
2.4 yarn-site.xml
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>spark-client</value> </property> <property> <name>yarn.nodemanager.aux-services.spark-client.class</name> <value>org.apache.spark.deploy.yarn.YarnSparkClient</value> </property> </configuration>
2.5 mapred-site.xml
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
3. 启动 HDFS
3.1 格式化 NameNode
在 Master 节点上格式化 NameNode:
hdfs namenode -format
3.2 启动 HDFS 服务
在 Master 节点上启动 NameNode:
start-dfs.sh
start-yarn.sh
4. 检查 HDFS 状态
你可以通过访问以下地址查看 HDFS 的状态:
http://master:9870
5. 配置Spark使用YARN
在Spark的配置文件 spark-defaults.conf 中,添加以下行来指定YARN为资源管理器:
spark.master=yarn
通过访问YARN的Web UI(通常在 http://master:8088)和Hadoop的Web UI(通常在 http://master:9870)来验证服务是否正常运行。
6. 测试 HDFS
在 HDFS 中创建目录和文件,确保它们能够在 Worker 节点上访问。
hdfs dfs -mkdir /test hdfs dfs -put /path/to/local/file /test hdfs dfs -ls /test
7. 集成 Spark 和 HDFS
确保 Spark 可以访问 HDFS。你可以在 Spark 提交作业时使用 HDFS 路径,例如:
spark-submit --master spark://master:7077 --class your.main.Class hdfs://master:9000/test/yourfile

浙公网安备 33010602011771号