随笔分类 -  大数据-Hadoop

摘要:‌一、数据仓库基础与建模‌ ‌数仓分层设计‌ 请描述滴滴数仓分层架构及各层核心作用(如ODS、DWD、DWS、ADS)‌。 ‌1. ODS(Operational Data Store)层:原始数据层‌‌数据内容‌:直接从业务系统抽取的原始数据,包括订单流水、用户行为日志、司机接单记录、GPS轨迹等 阅读全文
posted @ 2025-03-25 00:57 业余砖家 阅读(522) 评论(0) 推荐(0)
摘要:以下是一些 ‌大数据Java开发‌ 中常见的实际报错案例及解决方案,结合典型场景(如Hadoop、Spark、Flink等框架)说明: ‌案例1:HDFS文件写入权限不足‌ ‌报错信息‌:org.apache.hadoop.security.AccessControlException: Permi 阅读全文
posted @ 2025-03-24 15:39 业余砖家 阅读(55) 评论(0) 推荐(0)
摘要:1. NameNode 元数据丢失或损坏‌ ‌现象‌:NameNode 无法启动,报错提示元数据文件缺失或校验失败‌。 ‌原因‌:误删元数据目录(dfs.name.dir)或多次格式化导致 namespaceID 不一致‌。 ‌解决‌: 从 SecondaryNameNode 或备份的元数据目录(n 阅读全文
posted @ 2025-03-21 11:21 业余砖家 阅读(305) 评论(0) 推荐(0)
摘要:一、被动触发(HDFS 自动进入)‌ ‌NameNode 启动阶段‌ ‌元数据加载‌:NameNode 启动时需加载元数据(镜像文件 fsimage 和编辑日志 edits),此时自动进入安全模式,直到元数据加载完成并完成完整性校验‌。 ‌DataNode 注册‌:DataNode 启动后向 Nam 阅读全文
posted @ 2025-03-21 10:56 业余砖家 阅读(266) 评论(0) 推荐(0)
摘要:‌一、添加新节点(横向扩容)‌ ‌新节点基础配置‌ ‌网络与主机名‌:修改新节点的IP地址和主机名,确保与集群其他节点在同一网络并更新所有节点的/etc/hosts文件‌。 防火墙设置:关闭防火墙、禁止防火墙开机自启。 ‌SSH免密登录‌:生成新节点的SSH密钥并分发到NameNode,确保集群节点 阅读全文
posted @ 2025-03-20 11:06 业余砖家 阅读(192) 评论(0) 推荐(0)
摘要:一、DistCp 核心原理与适用场景‌ ‌原理‌:DistCp 是 Hadoop 提供的分布式文件复制工具,基于 MapReduce 实现跨集群或集群内数据的高效复制,支持大规模数据迁移和增量同步。 ‌适用场景‌: 集群升级或迁移(如从本地集群迁移至云集群)。 数据备份与容灾(跨机房或跨地域复制)。 阅读全文
posted @ 2025-03-19 14:16 业余砖家 阅读(728) 评论(0) 推荐(0)
摘要:1.1、介绍Hadoop 广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。 狭义上说,Hadoop指Apache这款开源框架,它的核心组件有: (1)、HDFS(分布式文件系统):解决海量数据存储; (2)、YARN(作业调度和集群资源管理的框架):解决资源任务调度; (3) 阅读全文
posted @ 2024-11-26 18:07 业余砖家 阅读(137) 评论(0) 推荐(0)
摘要:在搭好HA集群之后,想测试一下集群的高可用性,于是先把active的namenode给停掉: hadoop-daemon.sh stop namenode 或者直接kill掉该节点namenode的对应进程也可。 但是通过hdfs haadmin -getServiceState master1 查 阅读全文
posted @ 2024-11-26 16:49 业余砖家 阅读(218) 评论(0) 推荐(0)
摘要:(1)HBase和Hadoop、zookeeper、JDK兼容版本 参考网址: https://hbase.apache.org/book.html 1)JDK和Hbase的兼容版本 对于JDK,最好还是选择JDK1.8。 2)HBase和Hadoop的兼容版本 3)HBase和Zookeeper兼 阅读全文
posted @ 2024-01-16 14:42 业余砖家 阅读(474) 评论(0) 推荐(0)
摘要:1. Hadoop (1).HDFS:启动HDFS:start-dfs.sh关闭HDFS:stop-dfs.sh格式化NameNode:hdfs namenode -format查看文件系统状态:hdfs dfsadmin -report创建目录:hdfs dfs -mkdir /path/to/d 阅读全文
posted @ 2024-01-16 09:40 业余砖家 阅读(84) 评论(0) 推荐(0)
摘要:(1) Hadoop Web UI http://master-1:9870/dfshealth.html#tab-overview 旧版本的端口可能为:50070 http://master-1:50070/dfshealth.html#tab-overview 如果不知道端口,可以查看hdfs- 阅读全文
posted @ 2024-01-02 10:27 业余砖家 阅读(194) 评论(0) 推荐(0)
摘要:Hadoop官网历史版本:https://archive.apache.org/dist/hadoop/common/ Zookeeper官网历史版本:https://archive.apache.org/dist/zookeeper/ Hive官网历史版本:https://archive.apac 阅读全文
posted @ 2023-11-02 14:11 业余砖家 阅读(478) 评论(0) 推荐(2)
摘要:1.操作系统 cat /etc/redhat-release ; 2.JDK java -version 3.SCALA scala --version 4.MySQL mysql --version 5.Zookeeper ps -ef | grep -E “zookeeper-.*.jar” 6 阅读全文
posted @ 2023-10-26 10:05 业余砖家 阅读(120) 评论(0) 推荐(0)
摘要:在查询hdfs时或者执行程序向hdfs写入数据时遇到报错:Operation category READ is not supported in state standby 意思是:该主机状态为待机,不支持操作类别READ. 你会发现最基本的hdfs命令都不能执行,例如:hadoop fs -ls 阅读全文
posted @ 2023-10-13 14:56 业余砖家 阅读(4093) 评论(0) 推荐(0)
摘要:问题现象:在服务器上长时间运行hadoop之后,如果运行stop-all.sh,会发现: [root@node1 sbin]# stop-all.shThis script is Deprecated. Instead use stop-dfs.sh and stop-yarn.shStopping 阅读全文
posted @ 2023-05-11 09:53 业余砖家 阅读(910) 评论(0) 推荐(0)
摘要:1. 简介 Apache Hudi(简称:Hudi)允许您在现有的hadoop兼容存储之上存储大量数据,同时提供两种原语,使得除了经典的批处理之外,还可以在数据湖上进行流处理。 这两种原语分别是: 1)Update/Delete记录:Hudi使用细粒度的文件/记录级别索引来支持Update/Dele 阅读全文
posted @ 2023-02-09 23:44 业余砖家 阅读(294) 评论(0) 推荐(0)
摘要:1、简答说一下hadoop的map-reduce编程模型 首先map task会从本地文件系统读取数据,转换成key-value形式的键值对集合 使用的是hadoop内置的数据类型,比如longwritable、text等 将键值对集合输入mapper进行业务处理过程,将其转换成需要的key-val 阅读全文
posted @ 2023-02-08 23:34 业余砖家 阅读(173) 评论(0) 推荐(0)
摘要:1、Hadoop集群的最主要瓶颈 磁盘IO 2、Hadoop三大组件 (1)、HDFS HDFS(Hadoop Distributed File System)是 Hadoop 项目的核心子项目,主要负责集群数据的存储与读取,HDFS 是一个主/从(Master/Slave) 体系结构的分布式文件系 阅读全文
posted @ 2023-01-29 23:51 业余砖家 阅读(755) 评论(0) 推荐(0)