大数据-Hadoop - 随笔分类 - 业余砖家

滴滴数据仓库工程师面试题

摘要：‌一、数据仓库基础与建模‌ ‌数仓分层设计‌ 请描述滴滴数仓分层架构及各层核心作用（如ODS、DWD、DWS、ADS）‌。 ‌1. ODS（Operational Data Store）层：原始数据层‌‌数据内容‌：直接从业务系统抽取的原始数据，包括订单流水、用户行为日志、司机接单记录、GPS轨迹等阅读全文

posted @ 2025-03-25 00:57 业余砖家阅读(522) 评论(0) 推荐(0)

大数据Java开发中常见的报错

摘要：以下是一些 ‌大数据Java开发‌ 中常见的实际报错案例及解决方案，结合典型场景（如Hadoop、Spark、Flink等框架）说明： ‌案例1：HDFS文件写入权限不足‌ ‌报错信息‌：org.apache.hadoop.security.AccessControlException: Permi 阅读全文

posted @ 2025-03-24 15:39 业余砖家阅读(55) 评论(0) 推荐(0)

HDFS 常见故障与解决方案

摘要：1. NameNode 元数据丢失或损坏‌ ‌现象‌：NameNode 无法启动，报错提示元数据文件缺失或校验失败‌。 ‌原因‌：误删元数据目录（dfs.name.dir）或多次格式化导致 namespaceID 不一致‌。 ‌解决‌：从 SecondaryNameNode 或备份的元数据目录（n 阅读全文

posted @ 2025-03-21 11:21 业余砖家阅读(305) 评论(0) 推荐(0)

HDFS 进入安全模式（SafeMode）的场景

摘要：一、被动触发（HDFS 自动进入）‌ ‌NameNode 启动阶段‌ ‌元数据加载‌：NameNode 启动时需加载元数据（镜像文件 fsimage 和编辑日志 edits），此时自动进入安全模式，直到元数据加载完成并完成完整性校验‌。 ‌DataNode 注册‌：DataNode 启动后向 Nam 阅读全文

posted @ 2025-03-21 10:56 业余砖家阅读(266) 评论(0) 推荐(0)

CDH中对Hadoop进行扩容的步骤

摘要：‌一、添加新节点（横向扩容）‌ ‌新节点基础配置‌ ‌网络与主机名‌：修改新节点的IP地址和主机名，确保与集群其他节点在同一网络并更新所有节点的/etc/hosts文件‌。防火墙设置：关闭防火墙、禁止防火墙开机自启。 ‌SSH免密登录‌：生成新节点的SSH密钥并分发到NameNode，确保集群节点阅读全文

posted @ 2025-03-20 11:06 业余砖家阅读(192) 评论(0) 推荐(0)

Hadoop 使用 DistCp 跨集群迁移数据的完整指南

摘要：一、DistCp 核心原理与适用场景‌ ‌原理‌：DistCp 是 Hadoop 提供的分布式文件复制工具，基于 MapReduce 实现跨集群或集群内数据的高效复制，支持大规模数据迁移和增量同步。 ‌适用场景‌：集群升级或迁移（如从本地集群迁移至云集群）。数据备份与容灾（跨机房或跨地域复制）。阅读全文

posted @ 2025-03-19 14:16 业余砖家阅读(728) 评论(0) 推荐(0)

Hadoop相关面试题

摘要：1.1、介绍Hadoop 广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈。狭义上说，Hadoop指Apache这款开源框架，它的核心组件有： (1)、HDFS（分布式文件系统）：解决海量数据存储； (2)、YARN（作业调度和集群资源管理的框架）：解决资源任务调度； (3) 阅读全文

posted @ 2024-11-26 18:07 业余砖家阅读(137) 评论(0) 推荐(0)

hadoop~搭建HA集群之后不能自动切换namenode

摘要：在搭好HA集群之后，想测试一下集群的高可用性，于是先把active的namenode给停掉： hadoop-daemon.sh stop namenode 或者直接kill掉该节点namenode的对应进程也可。但是通过hdfs haadmin -getServiceState master1 查阅读全文

posted @ 2024-11-26 16:49 业余砖家阅读(218) 评论(0) 推荐(0)

Hadoop组件兼容性

摘要：（1）HBase和Hadoop、zookeeper、JDK兼容版本参考网址： https://hbase.apache.org/book.html 1）JDK和Hbase的兼容版本对于JDK，最好还是选择JDK1.8。 2）HBase和Hadoop的兼容版本 3）HBase和Zookeeper兼阅读全文

posted @ 2024-01-16 14:42 业余砖家阅读(474) 评论(0) 推荐(0)

Hadoop集群常用组件的命令

摘要：1. Hadoop (1).HDFS：启动HDFS：start-dfs.sh关闭HDFS：stop-dfs.sh格式化NameNode：hdfs namenode -format查看文件系统状态：hdfs dfsadmin -report创建目录：hdfs dfs -mkdir /path/to/d 阅读全文

posted @ 2024-01-16 09:40 业余砖家阅读(84) 评论(0) 推荐(0)

大数据生态组件WEB UI地址汇总

摘要：(1) Hadoop Web UI http://master-1:9870/dfshealth.html#tab-overview 旧版本的端口可能为：50070 http://master-1:50070/dfshealth.html#tab-overview 如果不知道端口，可以查看hdfs- 阅读全文

posted @ 2024-01-02 10:27 业余砖家阅读(194) 评论(0) 推荐(0)

大数据组件的历史版本下载地址

摘要：Hadoop官网历史版本：https://archive.apache.org/dist/hadoop/common/ Zookeeper官网历史版本：https://archive.apache.org/dist/zookeeper/ Hive官网历史版本：https://archive.apac 阅读全文

posted @ 2023-11-02 14:11 业余砖家阅读(478) 评论(0) 推荐(2)

Hadoop-大数据组件版本号查看

摘要：1．操作系统 cat /etc/redhat-release ; 2．JDK java -version 3．SCALA scala --version 4．MySQL mysql --version 5．Zookeeper ps -ef | grep -E “zookeeper-.*.jar” 6 阅读全文

posted @ 2023-10-26 10:05 业余砖家阅读(120) 评论(0) 推荐(0)

Hadoop-Operation category READ is not supported in state standby 故障解决

摘要：在查询hdfs时或者执行程序向hdfs写入数据时遇到报错：Operation category READ is not supported in state standby 意思是：该主机状态为待机,不支持操作类别READ. 你会发现最基本的hdfs命令都不能执行，例如：hadoop fs -ls 阅读全文

posted @ 2023-10-13 14:56 业余砖家阅读(4093) 评论(0) 推荐(0)

Hadoop的stop-all无法关闭集群原因及解决方案

摘要：问题现象：在服务器上长时间运行hadoop之后，如果运行stop-all.sh，会发现： [root@node1 sbin]# stop-all.shThis script is Deprecated. Instead use stop-dfs.sh and stop-yarn.shStopping 阅读全文

posted @ 2023-05-11 09:53 业余砖家阅读(910) 评论(0) 推荐(0)

Apache Hudi 设计与架构解读

摘要：1. 简介 Apache Hudi(简称：Hudi)允许您在现有的hadoop兼容存储之上存储大量数据，同时提供两种原语，使得除了经典的批处理之外，还可以在数据湖上进行流处理。这两种原语分别是: 1）Update/Delete记录：Hudi使用细粒度的文件/记录级别索引来支持Update/Dele 阅读全文

posted @ 2023-02-09 23:44 业余砖家阅读(294) 评论(0) 推荐(0)

Hadoop相关面试题

摘要：1、简答说一下hadoop的map-reduce编程模型首先map task会从本地文件系统读取数据，转换成key-value形式的键值对集合使用的是hadoop内置的数据类型，比如longwritable、text等将键值对集合输入mapper进行业务处理过程，将其转换成需要的key-val 阅读全文

posted @ 2023-02-08 23:34 业余砖家阅读(173) 评论(0) 推荐(0)

Hadoop-基础知识面试题

摘要：1、Hadoop集群的最主要瓶颈磁盘IO 2、Hadoop三大组件 (1)、HDFS HDFS(Hadoop Distributed File System)是 Hadoop 项目的核心子项目，主要负责集群数据的存储与读取，HDFS 是一个主/从(Master/Slave) 体系结构的分布式文件系阅读全文

posted @ 2023-01-29 23:51 业余砖家阅读(755) 评论(0) 推荐(0)

业余砖家

没有比人更高的山，没有比脚更长的路。

随笔分类 - 大数据-Hadoop

公告