3. 从0到1搭建DeltaLake大数据平台 - 安装配置Hadoop

要在已经安装好Spark的集群上配置YARN（Yet Another Resource Negotiator），你可以按照以下步骤进行：

1. 安装 Hadoop

1.1 下载 Hadoop

YARN是Hadoop的一部分，因此首先需要安装Hadoop。你可以从Apache Hadoop的官方网站下载合适的版

sudo tar -xvzf /home/sparkuser/temp/hadoop-3.4.1.tar.gz -C /opt/hadoop --strip-components=1
sudo chown -R sparkuser:sparkuser /opt/hadoop

1.2 设置环境变量

在你的用户的 .bashrc 或 .bash_profile 文件中添加Hadoop的环境变量：

//export HADOOP_HOME=/opt/hadoop
//export PATH=$PATH:$HADOOP_HOME/bin

echo "export HADOOP_HOME=/opt/hadoop" >> /home/sparkuser/.bashrc

echo "export PATH=\$PATH:\$HADOOP_HOME/bin" >> /home/sparkuser/.bashrc

然后执行：

source ~/.bashrc

2. 配置 Hadoop

在所有节点上，修改 Hadoop 配置文件。进入 Hadoop 配置目录：

cd etc/hadoop

2.1 修改权限（可选）

确保 Hadoop 目录权限正确：

sudo mkdir -p /usr/local/hadoop/dfs/name
sudo mkdir -p /usr/local/hadoop/dfs/data
sudo chown -R $(whoami):$(whoami) /usr/local/hadoop

2.2 core-site.xml

编辑 core-site.xml，配置 HDFS 的基本信息：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value> <!-- 将 master 替换为实际的 Master 节点 IP 或主机名 -->
    </property>
</configuration>

2.3 hdfs-site.xml

编辑 hdfs-site.xml，设置 HDFS 的数据存储位置：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>2</value> <!-- 根据需要设置副本数 -->
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:///usr/local/hadoop/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:///usr/local/hadoop/dfs/data</value>
    </property>
</configuration>

2.4 yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>spark-client</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.spark-client.class</name>
        <value>org.apache.spark.deploy.yarn.YarnSparkClient</value>
    </property>
</configuration>

2.5 mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

3. 启动 HDFS

3.1 格式化 NameNode

在 Master 节点上格式化 NameNode：

hdfs namenode -format

3.2 启动 HDFS 服务

在 Master 节点上启动 NameNode：

start-dfs.sh
start-yarn.sh

4. 检查 HDFS 状态

你可以通过访问以下地址查看 HDFS 的状态：

http://master:9870

5. 配置Spark使用YARN

在Spark的配置文件 spark-defaults.conf 中，添加以下行来指定YARN为资源管理器：

spark.master=yarn

通过访问YARN的Web UI（通常在 http://master:8088）和Hadoop的Web UI（通常在 http://master:9870）来验证服务是否正常运行。

6. 测试 HDFS

在 HDFS 中创建目录和文件，确保它们能够在 Worker 节点上访问。

hdfs dfs -mkdir /test
hdfs dfs -put /path/to/local/file /test
hdfs dfs -ls /test

7. 集成 Spark 和 HDFS

确保 Spark 可以访问 HDFS。你可以在 Spark 提交作业时使用 HDFS 路径，例如：

spark-submit --master spark://master:7077 --class your.main.Class hdfs://master:9000/test/yourfile

posted @ 2024-10-22 11:14 ZH谢工阅读(121) 评论(0) 收藏举报

刷新页面返回顶部

BI, AI, 大数据学习

心若有所向往,何惧道阻且长; 但愿每一个人都像星星一样安详而从容的,不断沿着既定的目标走完自己的路程.