摘要: Delta Lake 重点问题 Delta Lake API 支持哪种类型的写操作? Delta Lake 可以解决哪些需求? 快点清理掉被合并掉的小文件,如何设置安全期参数 什么是 Delta Lake 整体来看的话,其实就是在数据入hdfs之前多了delta lake这层组件,能够对小文件合并, 阅读全文
posted @ 2020-08-28 23:29 -拂石- 阅读(1019) 评论(0) 推荐(0) 编辑
摘要: Spark for ETL & Data Science 重点问题 Zeppelin 支持哪些引擎 Zeppelin支持Spark的哪些运行模式 What is ETL & Data Science How to do ETL in Spark **E: Extract → **Read raw d 阅读全文
posted @ 2020-08-27 21:25 -拂石- 阅读(153) 评论(0) 推荐(0) 编辑
摘要: Spark部署打包 重点问题 Spark 2.4支持的部署模式 Spark 配置的优先级 YARN Client模式和YARN Cluster模式 Spark部署模式及原理 Local StandAlone Yarn Mesos Kubernetes 决定driver在什么地方运行,在客户端或者集群 阅读全文
posted @ 2020-08-26 21:46 -拂石- 阅读(219) 评论(0) 推荐(0) 编辑
摘要: Spark Sql 介绍与实战 Spark Sql介绍 Catalyst SQL Core https://spark.apache.org/docs/latest/sql-data-sources.html SQL实战 spark-sql#启动命令 show databases; use ssb; 阅读全文
posted @ 2020-08-25 21:38 -拂石- 阅读(320) 评论(0) 推荐(0) 编辑
摘要: Apache Spark 入门知识 spark 生态系统 sparksql,dataframes处理结构化数据 streaming用于流式场景的模块 MLlib机器学习模块 GraphX图计算模块 底层模块spark core api用于提供多语言支持,是spark最原始的模块,是所有模块的基础 s 阅读全文
posted @ 2020-08-25 13:48 -拂石- 阅读(230) 评论(0) 推荐(0) 编辑
摘要: hive.server2.authentication参数配置 HiveServer2支持匿名(不启用认证)和使用SASL,Kerberos(GSSAPI),通过LDAP,可插入自定义认证和可插入认证模块(PAM,支持Hive 0.13以上),CUSTOM为可基于自身需求定制的用户安全认证模式。 当 阅读全文
posted @ 2020-08-22 17:00 -拂石- 阅读(3818) 评论(0) 推荐(0) 编辑
摘要: python hive Permission denied 问题 具体错误栈就不列了,错误信息中出现org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=WRITE, 基本就能确 阅读全文
posted @ 2020-08-22 00:32 -拂石- 阅读(321) 评论(0) 推荐(0) 编辑
摘要: Linux Python 换源 for Linux sudo mkdir ~/.pip vim ~/.pip/pip.conf 在pip.conf文件中输入以下内容即可: [global] index-url = http://pypi.douban.com/simple [install] use 阅读全文
posted @ 2020-08-19 22:04 -拂石- 阅读(442) 评论(0) 推荐(0) 编辑
摘要: pycharm换源 点开pycharm左上角的File → Setting,点开project栏的interpreter,右边会有一个“+”号 点开后下方会有manage repositories,在其中添加如下内容即可,如有需要可以自己添加其他源 https://pypi.tuna.tsinghu 阅读全文
posted @ 2020-08-07 23:29 -拂石- 阅读(946) 评论(0) 推荐(0) 编辑
摘要: python mysql数据通过pipline批量导入 redis 作为单线程数据库,redis在批量执行一系列命令时,如果每次都单独执行,就需要多次等待服务器进行响应,由于网络延迟通常会导致命令运行效率低下,而pipline能够做到一次性提交大量请求给redisserver,执行完成后再获取相应结 阅读全文
posted @ 2020-08-03 17:31 -拂石- 阅读(336) 评论(0) 推荐(0) 编辑