spark优化

摘要: spark之资源分配 1.分配哪些资源 executor,cpu per executor,memory per executor,driver-memory 2.在哪里分配这些资源 /usr/local/spark/bin/spark-submit \ --class cn.spark.spark 阅读全文
posted @ 2021-11-07 15:46 风有衡 阅读(286) 评论(0) 推荐(0) 编辑

大数据离线面试基础

摘要: 什么是缓慢变化维? 在实际生成情况中,很多维度属性并不是一成不变的,比如机构维度,职级维度 解决方案: 1.属性值不变-啥也不用改,变化的维度并不产生影响 2.重写维度属性--如:更新机构维度数据,问题是无法保留历史的维度值 3.拉链表--如:代理人职级晋升记录,表中的记录变化不大 4.增加维度行- 阅读全文
posted @ 2021-11-06 11:03 风有衡 阅读(111) 评论(0) 推荐(0) 编辑

hdfs基础

摘要: Namenode作用? 1 管理,维护文件系统的元数据/名字空间/目录树 管理数据与节点之间的映射关系(管理文件系统中的每个文件/目录的block信息) 2 管理datanode汇报的心跳日志/报告 3 客户端与datanode之间的桥梁(元数据信息共享) Datanode的作用? 1 负责数据的读 阅读全文
posted @ 2021-10-17 14:21 风有衡 阅读(39) 评论(0) 推荐(0) 编辑

mapreduce基础

摘要: mapreduce核心思想:分而治之,先分后合 分是map,合是reduce Shuffle包含哪些步骤 宏观层面: 1.分区 2.排序 3.combine(局部聚和) 4.分组 MR从读取数据开始到将最终结果写入hdfs经过哪些步骤 第一步:inputFormat 在hdfs文件系统中读取要进行计 阅读全文
posted @ 2021-10-17 13:09 风有衡 阅读(61) 评论(0) 推荐(0) 编辑

hive基础

摘要: hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,提供简单的sql查询功能,可以将sql语句转换为mapreduce任务进行运行 Metastore(hive 元数据) hive将元数据存储在数据库中,比如mysql,derby,hive中的元数据包括表的名称, 阅读全文
posted @ 2021-10-17 12:45 风有衡 阅读(33) 评论(0) 推荐(0) 编辑

hadoop基础

摘要: 1 什么是hadoop? hadoop是一个开源框架,用于存储大量数据,并发处理/查询在具有多个商用硬件(即低成本硬件)节点的集群上的那些数据 主要包含以下几块? HDFS 允许你一种分布式和冗余的方式存储大量数据 MapReduce 一个计算框架,它以分布式和并行的方式处理大量数据 Yarn 用于 阅读全文
posted @ 2021-10-17 12:21 风有衡 阅读(69) 评论(0) 推荐(0) 编辑

数据库基础知识

摘要: 事物四大特性 原子性 要么执行成功,要么不执行 隔离性 所有操作全部执行完以前,其他会话不能看到过程 一致性 事务前后,数据总额一致 持久性 一旦事务提交,对数据的改变就是永久的 数据库隔离级别 读未提交 不可重复读 事务A多次读取同一数据,事务B在事务A多次读取的过程中,对数据做了更新并提交,导致 阅读全文
posted @ 2021-10-16 16:18 风有衡 阅读(39) 评论(0) 推荐(0) 编辑

sqoop基础

摘要: 注意:sqoop在工作中的定位是会用就行 参数: --target-dir \ hdfs目标的目录 --delete-target-dir \导入的目标目录如果存在则删除那个目录 --num-mappers \相当于-m,并行导入时map task的个数 --fields-terminated-by 阅读全文
posted @ 2021-10-16 15:50 风有衡 阅读(142) 评论(0) 推荐(0) 编辑

大数据之常用linux常用命令

摘要: 1.Linux日常操作的命令 pwd查看当前所在的目录 date查看当前系统使用的时间 查看有谁在线(哪些人登录了服务器) who 查看当前在线 last 查看最近的登录历史信息 hostname 查看主机名称,修改主机名称 vi /etc/sysconfig/network uname -a 查看 阅读全文
posted @ 2021-10-16 15:26 风有衡 阅读(76) 评论(0) 推荐(0) 编辑

zooKeeper基础

摘要: 集群最少几台机器?集群规则是怎么样?集群中一个节点宕机,这个时候zookeeper还可以使用吗? 集群规则为2N+1台,N>0 即至少3台,可以继续使用,单数服务器只要没超过一半的服务器宕机就可以继续使用 部署方式分为单机/集群模式 角色:leader/follower 集群最少需要的机器数:3 选 阅读全文
posted @ 2021-10-16 15:11 风有衡 阅读(54) 评论(0) 推荐(0) 编辑