随笔分类 - 大数据
摘要:未被external修饰的是内部表(managed table),被external修饰的为外部表(external table); 区别: 内部表数据由Hive自身管理,外部表数据由HDFS管理; 内部表数据存储的位置是hive.metastore.warehouse.dir(默认:/user/h
阅读全文
摘要:hiveserver2的启动与datagrip连接hiveserver2 hiveserver2的配置 {HIVE_HOME}\conf\hive-site.xml <?xml version="1.0" encoding="UTF-8" standalone="no"?><?xml-stylesh
阅读全文
摘要:K8s部分概念 Kubernetes核心组件 组件名称 说明 etcd 保存了整个集群的状态 apiserver 提供了资源操作的唯一入口,并提供认证、授权、访问控制、API注册和发现等机制 controller manager 负责维护集群的状态,比如故障监测、自动拓展、滚动更新等 schedul
阅读全文
摘要:Docker Container应用部分shell操作要求进程停止问题 问题描述 docker容器中,比如neo4j的neo4j-dump导出以及恢复数据库方法要求停用neo4j进程,但是docker容器中是没有办法停止主程序进程的,停止进程会造成容器down,而没办法进行其他操作。这个操作是与容器
阅读全文
摘要:Spark源码 RDD部分各类算子以及接口 Spark Version:3.1.1 需要事先说明的是,本文仅为个人阅读源码过程中的积累,其中案例有的来自官方有的来自网络,并非全部由我自己编写,这篇博客也主要用于自己翻阅为主 Spark-RDD filepath:spark-3.1.1\core\sr
阅读全文
摘要:error: object kafka is not a member of package org.apache.spark.streaming scala + kafka + spark环境 如果你使用的版本是kafka-0-10版本,需要将原来导包时的kafka修改成kafka010。 原因是
阅读全文
摘要:spark启动失败纠错 说明 hadoop集群是用ambari搭建的,照理来说不会出现配置错误的问题 错误出现在使用spark-shell指令启动的时候 按网上说的看了很多,错误原因无非网络,配置失误,内存不够等等,也做过一些修改的尝试,均失败 最后发现自己眼瞎,第五行就写着perimission
阅读全文
摘要:Spark 相关题目 1、下面哪个不是 Spark 的四大组件(D) A B C D Spark Streaming Mlib Graphx Spark 2、下面哪个不是 RDD 的特点(C) A B C D 可分区 可序列化 可修改 可持久化 3、DataFrame API的write接口不支持以
阅读全文
摘要:Spark SQL 扩展开发入门 Spark SQL 背景介绍 Spark SQL 扩展的功能 Spark SQL 扩展的API 逻辑计划->物理计划 如何部署开发好的插件
阅读全文
摘要:基于Spark快速构建数仓项目 重点问题 数据仓库解决了什么业务问题,它和传统数据库的区别是什么? 对数据仓库的基础架构有大致的了解。 使用 Spark 可以构建数据仓库的哪些核心能力? 如何使用 Spark Core/Streaming 扩展数据源? 如何使用 Spark 进行 OLAP? 哪些操
阅读全文
摘要:Delta Lake 重点问题 Delta Lake API 支持哪种类型的写操作? Delta Lake 可以解决哪些需求? 快点清理掉被合并掉的小文件,如何设置安全期参数 什么是 Delta Lake 整体来看的话,其实就是在数据入hdfs之前多了delta lake这层组件,能够对小文件合并,
阅读全文
摘要:Spark for ETL & Data Science 重点问题 Zeppelin 支持哪些引擎 Zeppelin支持Spark的哪些运行模式 What is ETL & Data Science How to do ETL in Spark **E: Extract → **Read raw d
阅读全文
摘要:Spark部署打包 重点问题 Spark 2.4支持的部署模式 Spark 配置的优先级 YARN Client模式和YARN Cluster模式 Spark部署模式及原理 Local StandAlone Yarn Mesos Kubernetes 决定driver在什么地方运行,在客户端或者集群
阅读全文
摘要:Spark Sql 介绍与实战 Spark Sql介绍 Catalyst SQL Core https://spark.apache.org/docs/latest/sql-data-sources.html SQL实战 spark-sql#启动命令 show databases; use ssb;
阅读全文
摘要:Apache Spark 入门知识 spark 生态系统 sparksql,dataframes处理结构化数据 streaming用于流式场景的模块 MLlib机器学习模块 GraphX图计算模块 底层模块spark core api用于提供多语言支持,是spark最原始的模块,是所有模块的基础 s
阅读全文
摘要:hive.server2.authentication参数配置 HiveServer2支持匿名(不启用认证)和使用SASL,Kerberos(GSSAPI),通过LDAP,可插入自定义认证和可插入认证模块(PAM,支持Hive 0.13以上),CUSTOM为可基于自身需求定制的用户安全认证模式。 当
阅读全文
摘要:python hive Permission denied 问题 具体错误栈就不列了,错误信息中出现org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=WRITE, 基本就能确
阅读全文
摘要:Redis集群部署 1. 本文集群结构 一共三个节点,每个节点启动两个redis-server作为主备进程,以6379为主,6380为备,主要使用redis5.0.5版本 ps:以下2、3、4、5步骤均需要在每台节点上配置 2. 安装redis cd /usr/local/ sudo mkdir r
阅读全文
摘要:hdfs fsimage和editlog fsimage,namenode的元数据镜像文件,保存在磁盘 editlog,namenode操作日志 fstime,最近一次的checkpoint时间 metadata,一个文件存储在哪些DataNode节点的哪些位置的元数据信息 datanode上存储文
阅读全文
摘要:MapReduce简单案例 案例一 文件合并和去重操作 对于两个输入文件,即文件A和文件B,请编写MapReduce程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新的输出文件C。下面是输入文件和输出文件的一个样例供参考。 输入文件A的样例如下: 数据 20150101 x 20150103
阅读全文

浙公网安备 33010602011771号