3. 从0到1搭建DeltaLake大数据平台 - 安装配置Hadoop

要在已经安装好Spark的集群上配置YARN(Yet Another Resource Negotiator),你可以按照以下步骤进行:

1. 安装 Hadoop

1.1 下载 Hadoop

YARN是Hadoop的一部分,因此首先需要安装Hadoop。你可以从Apache Hadoop的官方网站下载合适的版

sudo tar -xvzf /home/sparkuser/temp/hadoop-3.4.1.tar.gz -C /opt/hadoop --strip-components=1
sudo chown -R sparkuser:sparkuser /opt/hadoop

1.2 设置环境变量

在你的用户的 .bashrc.bash_profile 文件中添加Hadoop的环境变量:

//export HADOOP_HOME=/opt/hadoop
//export PATH=$PATH:$HADOOP_HOME/bin

echo "export HADOOP_HOME=/opt/hadoop" >> /home/sparkuser/.bashrc
echo "export PATH=\$PATH:\$HADOOP_HOME/bin" >> /home/sparkuser/.bashrc

然后执行:

source ~/.bashrc

2. 配置 Hadoop

在所有节点上,修改 Hadoop 配置文件。进入 Hadoop 配置目录:

cd etc/hadoop

2.1 修改权限(可选)

确保 Hadoop 目录权限正确:

sudo mkdir -p /usr/local/hadoop/dfs/name
sudo mkdir -p /usr/local/hadoop/dfs/data
sudo chown -R $(whoami):$(whoami) /usr/local/hadoop

2.2 core-site.xml

编辑 core-site.xml,配置 HDFS 的基本信息:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value> <!-- 将 master 替换为实际的 Master 节点 IP 或主机名 -->
    </property>
</configuration>

2.3 hdfs-site.xml

编辑 hdfs-site.xml,设置 HDFS 的数据存储位置:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>2</value> <!-- 根据需要设置副本数 -->
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:///usr/local/hadoop/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:///usr/local/hadoop/dfs/data</value>
    </property>
</configuration>

2.4 yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>spark-client</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.spark-client.class</name>
        <value>org.apache.spark.deploy.yarn.YarnSparkClient</value>
    </property>
</configuration>

2.5 mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

 

3. 启动 HDFS

3.1 格式化 NameNode

在 Master 节点上格式化 NameNode:

hdfs namenode -format

3.2 启动 HDFS 服务

在 Master 节点上启动 NameNode:

start-dfs.sh
start-yarn.sh

4. 检查 HDFS 状态

你可以通过访问以下地址查看 HDFS 的状态:

http://master:9870

5. 配置Spark使用YARN

在Spark的配置文件 spark-defaults.conf 中,添加以下行来指定YARN为资源管理器:

spark.master=yarn

通过访问YARN的Web UI(通常在 http://master:8088)和Hadoop的Web UI(通常在 http://master:9870)来验证服务是否正常运行。

6. 测试 HDFS

在 HDFS 中创建目录和文件,确保它们能够在 Worker 节点上访问。

hdfs dfs -mkdir /test
hdfs dfs -put /path/to/local/file /test
hdfs dfs -ls /test

7. 集成 Spark 和 HDFS

确保 Spark 可以访问 HDFS。你可以在 Spark 提交作业时使用 HDFS 路径,例如:

spark-submit --master spark://master:7077 --class your.main.Class hdfs://master:9000/test/yourfile
posted @ 2024-10-22 11:14  ZH谢工  阅读(120)  评论(0)    收藏  举报