大数据 - 随笔分类 - -拂石-

【转载】 hive 内部表与外部表

摘要：未被external修饰的是内部表（managed table），被external修饰的为外部表（external table）；区别：内部表数据由Hive自身管理，外部表数据由HDFS管理；内部表数据存储的位置是hive.metastore.warehouse.dir（默认：/user/h 阅读全文

posted @ 2021-08-18 09:00 -拂石- 阅读(347) 评论(0) 推荐(0)

hiveserver2的启动与datagrip连接hiveserver2

摘要：hiveserver2的启动与datagrip连接hiveserver2 hiveserver2的配置 {HIVE_HOME}\conf\hive-site.xml <?xml version="1.0" encoding="UTF-8" standalone="no"?><?xml-stylesh 阅读全文

posted @ 2021-08-13 15:38 -拂石- 阅读(1196) 评论(0) 推荐(0)

K8s部分概念

摘要：K8s部分概念 Kubernetes核心组件组件名称说明 etcd 保存了整个集群的状态 apiserver 提供了资源操作的唯一入口,并提供认证、授权、访问控制、API注册和发现等机制 controller manager 负责维护集群的状态，比如故障监测、自动拓展、滚动更新等 schedul 阅读全文

posted @ 2021-07-15 15:44 -拂石- 阅读(184) 评论(0) 推荐(0)

Docker Container应用部分shell操作要求进程停止问题

摘要：Docker Container应用部分shell操作要求进程停止问题问题描述 docker容器中，比如neo4j的neo4j-dump导出以及恢复数据库方法要求停用neo4j进程，但是docker容器中是没有办法停止主程序进程的，停止进程会造成容器down，而没办法进行其他操作。这个操作是与容器阅读全文

posted @ 2021-07-07 11:10 -拂石- 阅读(171) 评论(0) 推荐(0)

Spark源码 RDD部分

摘要：Spark源码 RDD部分各类算子以及接口 Spark Version:3.1.1 需要事先说明的是，本文仅为个人阅读源码过程中的积累，其中案例有的来自官方有的来自网络，并非全部由我自己编写，这篇博客也主要用于自己翻阅为主 Spark-RDD filepath：spark-3.1.1\core\sr 阅读全文

posted @ 2021-05-01 22:54 -拂石- 阅读(184) 评论(0) 推荐(0)

error: object kafka is not a member of package org.apache.spark.streaming

摘要：error: object kafka is not a member of package org.apache.spark.streaming scala + kafka + spark环境如果你使用的版本是kafka-0-10版本，需要将原来导包时的kafka修改成kafka010。原因是阅读全文

posted @ 2020-10-23 21:39 -拂石- 阅读(1602) 评论(0) 推荐(0)

spark启动失败纠错

摘要：spark启动失败纠错说明 hadoop集群是用ambari搭建的，照理来说不会出现配置错误的问题错误出现在使用spark-shell指令启动的时候按网上说的看了很多，错误原因无非网络，配置失误，内存不够等等，也做过一些修改的尝试，均失败最后发现自己眼瞎，第五行就写着perimission 阅读全文

posted @ 2020-10-03 00:00 -拂石- 阅读(915) 评论(0) 推荐(0)

Spark 相关题目

摘要：Spark 相关题目 1、下面哪个不是 Spark 的四大组件（D） A B C D Spark Streaming Mlib Graphx Spark 2、下面哪个不是 RDD 的特点（C） A B C D 可分区可序列化可修改可持久化 3、DataFrame API的write接口不支持以阅读全文

posted @ 2020-09-01 21:32 -拂石- 阅读(589) 评论(0) 推荐(0)

Spark SQL 扩展开发入门

摘要：Spark SQL 扩展开发入门 Spark SQL 背景介绍 Spark SQL 扩展的功能 Spark SQL 扩展的API 逻辑计划->物理计划如何部署开发好的插件阅读全文

posted @ 2020-08-31 21:50 -拂石- 阅读(692) 评论(0) 推荐(0)

基于Spark快速构建数仓项目

摘要：基于Spark快速构建数仓项目重点问题数据仓库解决了什么业务问题，它和传统数据库的区别是什么? 对数据仓库的基础架构有大致的了解。使用 Spark 可以构建数据仓库的哪些核心能力? 如何使用 Spark Core/Streaming 扩展数据源? 如何使用 Spark 进行 OLAP? 哪些操阅读全文

posted @ 2020-08-29 22:36 -拂石- 阅读(1918) 评论(0) 推荐(1)

Delta Lake

摘要：Delta Lake 重点问题 Delta Lake API 支持哪种类型的写操作？ Delta Lake 可以解决哪些需求？快点清理掉被合并掉的小文件，如何设置安全期参数什么是 Delta Lake 整体来看的话，其实就是在数据入hdfs之前多了delta lake这层组件，能够对小文件合并，阅读全文

posted @ 2020-08-28 23:29 -拂石- 阅读(1077) 评论(0) 推荐(0)

Spark for ETL & Data Science

摘要：Spark for ETL & Data Science 重点问题 Zeppelin 支持哪些引擎 Zeppelin支持Spark的哪些运行模式 What is ETL & Data Science How to do ETL in Spark **E: Extract → **Read raw d 阅读全文

posted @ 2020-08-27 21:25 -拂石- 阅读(177) 评论(0) 推荐(0)

Spark部署打包

摘要：Spark部署打包重点问题 Spark 2.4支持的部署模式 Spark 配置的优先级 YARN Client模式和YARN Cluster模式 Spark部署模式及原理 Local StandAlone Yarn Mesos Kubernetes 决定driver在什么地方运行，在客户端或者集群阅读全文

posted @ 2020-08-26 21:46 -拂石- 阅读(239) 评论(0) 推荐(0)

Spark Sql 介绍与实战

摘要：Spark Sql 介绍与实战 Spark Sql介绍 Catalyst SQL Core https://spark.apache.org/docs/latest/sql-data-sources.html SQL实战 spark-sql#启动命令 show databases; use ssb; 阅读全文

posted @ 2020-08-25 21:38 -拂石- 阅读(443) 评论(0) 推荐(0)

Apache Spark 入门知识

摘要：Apache Spark 入门知识 spark 生态系统 sparksql，dataframes处理结构化数据 streaming用于流式场景的模块 MLlib机器学习模块 GraphX图计算模块底层模块spark core api用于提供多语言支持，是spark最原始的模块，是所有模块的基础 s 阅读全文

posted @ 2020-08-25 13:48 -拂石- 阅读(260) 评论(0) 推荐(0)

hive.server2.authentication参数配置

摘要：hive.server2.authentication参数配置 HiveServer2支持匿名（不启用认证）和使用SASL，Kerberos（GSSAPI），通过LDAP，可插入自定义认证和可插入认证模块（PAM，支持Hive 0.13以上），CUSTOM为可基于自身需求定制的用户安全认证模式。当阅读全文

posted @ 2020-08-22 17:00 -拂石- 阅读(4449) 评论(0) 推荐(0)

python hive Permission denied 问题

摘要：python hive Permission denied 问题具体错误栈就不列了，错误信息中出现org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=WRITE, 基本就能确阅读全文

posted @ 2020-08-22 00:32 -拂石- 阅读(391) 评论(0) 推荐(0)

Redis集群部署

摘要：Redis集群部署 1. 本文集群结构一共三个节点，每个节点启动两个redis-server作为主备进程，以6379为主，6380为备，主要使用redis5.0.5版本 ps:以下2、3、4、5步骤均需要在每台节点上配置 2. 安装redis cd /usr/local/ sudo mkdir r 阅读全文

posted @ 2020-08-01 00:15 -拂石- 阅读(236) 评论(0) 推荐(0)

hdfs fsimage和editlog

摘要：hdfs fsimage和editlog fsimage，namenode的元数据镜像文件，保存在磁盘 editlog，namenode操作日志 fstime，最近一次的checkpoint时间 metadata，一个文件存储在哪些DataNode节点的哪些位置的元数据信息 datanode上存储文阅读全文

posted @ 2020-07-27 20:05 -拂石- 阅读(1748) 评论(0) 推荐(0)

MapReduce简单案例

摘要：MapReduce简单案例案例一文件合并和去重操作对于两个输入文件，即文件A和文件B，请编写MapReduce程序，对两个文件进行合并，并剔除其中重复的内容，得到一个新的输出文件C。下面是输入文件和输出文件的一个样例供参考。输入文件A的样例如下：数据 20150101 x 20150103 阅读全文

posted @ 2020-07-27 17:36 -拂石- 阅读(1002) 评论(0) 推荐(0)

拂石

随笔分类 - 大数据

公告