随笔分类 - Databricks
摘要:为什么要使用external hive metastore可以跨workspace的共享元数据,不用每次创建workspace的时候都重复的把元数据重建一次。更好的元数据集中管理,Create once, use everywhere。为灾难恢复(DR)做好为准备,并降低复杂性。(PAAS一样会存在
阅读全文
摘要:本文介绍 Azure Databricks 中的 Delta Sharing,这是安全的数据共享平台,可用于与组织外的用户共享 Azure Databricks 中的数据。sharing分两类:开放共享:可与任何用户共享数据(无论他们是否有权访问 Azure Databricks)。Databric
阅读全文
摘要:目录先决条件在Azure Databricks环境中设置Unity Catalog元存储步骤1:为元存储创建blob存储步骤2:创建Azure Databricks访问连接器步骤3:在Azure Databricks帐户控制台中创建元存储步骤4a:创建catalog和托管表步骤4b:创建一个外部表U
阅读全文
摘要:先总结下unity catalog是databricks的数据治理解决方案,他提供了统一的元数据管理、权限访问控制、数据审核、数据质量、数据血缘、数据发现、数据共享等功能。数据血缘真的很不错,如果是一个新的用户,又是global的我强烈推荐您使用起来。本人使用下来的感受:功能还是很强大,解决了以前权
阅读全文
摘要:问题Spark sql 查询出的数据量与hive不一致,重启spark就没问题,查询结果一致。或者报错说读取的文件不存在,类似如下的错误FileReadException: Error while reading file xxx.It is possible the underlying file
阅读全文
摘要:Overview定义计算资源(集群、作业和池),并确定用于不同工作负载的资源。描述几个用例的集群资源调配策略,以最大限度地提高可用性和成本效益。描述集群治理的最佳实践,包括集群策略。描述Azure Databricks的容量限制。描述如何管理成本和执行按存储容量使用计费分析。计算资源/Computa
阅读全文
摘要:问题尝试使用 TIMESTAMP 创建 Parquet 表,但收到一条错误消息Error in SQL statement: QueryExecutionException: FAILED: Execution Error, return code 1 from org.apache.hadoop.
阅读全文

浙公网安备 33010602011771号