随笔分类 - 大数据-Hadoop
摘要:一、数据仓库基础与建模 数仓分层设计 请描述滴滴数仓分层架构及各层核心作用(如ODS、DWD、DWS、ADS)。 1. ODS(Operational Data Store)层:原始数据层数据内容:直接从业务系统抽取的原始数据,包括订单流水、用户行为日志、司机接单记录、GPS轨迹等
阅读全文
摘要:以下是一些 大数据Java开发 中常见的实际报错案例及解决方案,结合典型场景(如Hadoop、Spark、Flink等框架)说明: 案例1:HDFS文件写入权限不足 报错信息:org.apache.hadoop.security.AccessControlException: Permi
阅读全文
摘要:1. NameNode 元数据丢失或损坏 现象:NameNode 无法启动,报错提示元数据文件缺失或校验失败。 原因:误删元数据目录(dfs.name.dir)或多次格式化导致 namespaceID 不一致。 解决: 从 SecondaryNameNode 或备份的元数据目录(n
阅读全文
摘要:一、被动触发(HDFS 自动进入) NameNode 启动阶段 元数据加载:NameNode 启动时需加载元数据(镜像文件 fsimage 和编辑日志 edits),此时自动进入安全模式,直到元数据加载完成并完成完整性校验。 DataNode 注册:DataNode 启动后向 Nam
阅读全文
摘要:一、添加新节点(横向扩容) 新节点基础配置 网络与主机名:修改新节点的IP地址和主机名,确保与集群其他节点在同一网络并更新所有节点的/etc/hosts文件。 防火墙设置:关闭防火墙、禁止防火墙开机自启。 SSH免密登录:生成新节点的SSH密钥并分发到NameNode,确保集群节点
阅读全文
摘要:一、DistCp 核心原理与适用场景 原理:DistCp 是 Hadoop 提供的分布式文件复制工具,基于 MapReduce 实现跨集群或集群内数据的高效复制,支持大规模数据迁移和增量同步。 适用场景: 集群升级或迁移(如从本地集群迁移至云集群)。 数据备份与容灾(跨机房或跨地域复制)。
阅读全文
摘要:1.1、介绍Hadoop 广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。 狭义上说,Hadoop指Apache这款开源框架,它的核心组件有: (1)、HDFS(分布式文件系统):解决海量数据存储; (2)、YARN(作业调度和集群资源管理的框架):解决资源任务调度; (3)
阅读全文
摘要:在搭好HA集群之后,想测试一下集群的高可用性,于是先把active的namenode给停掉: hadoop-daemon.sh stop namenode 或者直接kill掉该节点namenode的对应进程也可。 但是通过hdfs haadmin -getServiceState master1 查
阅读全文
摘要:(1)HBase和Hadoop、zookeeper、JDK兼容版本 参考网址: https://hbase.apache.org/book.html 1)JDK和Hbase的兼容版本 对于JDK,最好还是选择JDK1.8。 2)HBase和Hadoop的兼容版本 3)HBase和Zookeeper兼
阅读全文
摘要:1. Hadoop (1).HDFS:启动HDFS:start-dfs.sh关闭HDFS:stop-dfs.sh格式化NameNode:hdfs namenode -format查看文件系统状态:hdfs dfsadmin -report创建目录:hdfs dfs -mkdir /path/to/d
阅读全文
摘要:(1) Hadoop Web UI http://master-1:9870/dfshealth.html#tab-overview 旧版本的端口可能为:50070 http://master-1:50070/dfshealth.html#tab-overview 如果不知道端口,可以查看hdfs-
阅读全文
摘要:Hadoop官网历史版本:https://archive.apache.org/dist/hadoop/common/ Zookeeper官网历史版本:https://archive.apache.org/dist/zookeeper/ Hive官网历史版本:https://archive.apac
阅读全文
摘要:1.操作系统 cat /etc/redhat-release ; 2.JDK java -version 3.SCALA scala --version 4.MySQL mysql --version 5.Zookeeper ps -ef | grep -E “zookeeper-.*.jar” 6
阅读全文
摘要:在查询hdfs时或者执行程序向hdfs写入数据时遇到报错:Operation category READ is not supported in state standby 意思是:该主机状态为待机,不支持操作类别READ. 你会发现最基本的hdfs命令都不能执行,例如:hadoop fs -ls
阅读全文
摘要:问题现象:在服务器上长时间运行hadoop之后,如果运行stop-all.sh,会发现: [root@node1 sbin]# stop-all.shThis script is Deprecated. Instead use stop-dfs.sh and stop-yarn.shStopping
阅读全文
摘要:1. 简介 Apache Hudi(简称:Hudi)允许您在现有的hadoop兼容存储之上存储大量数据,同时提供两种原语,使得除了经典的批处理之外,还可以在数据湖上进行流处理。 这两种原语分别是: 1)Update/Delete记录:Hudi使用细粒度的文件/记录级别索引来支持Update/Dele
阅读全文
摘要:1、简答说一下hadoop的map-reduce编程模型 首先map task会从本地文件系统读取数据,转换成key-value形式的键值对集合 使用的是hadoop内置的数据类型,比如longwritable、text等 将键值对集合输入mapper进行业务处理过程,将其转换成需要的key-val
阅读全文
摘要:1、Hadoop集群的最主要瓶颈 磁盘IO 2、Hadoop三大组件 (1)、HDFS HDFS(Hadoop Distributed File System)是 Hadoop 项目的核心子项目,主要负责集群数据的存储与读取,HDFS 是一个主/从(Master/Slave) 体系结构的分布式文件系
阅读全文