摘要: Delta Lake 写数据是其最基本的功能,而且其使用和现有的 Spark 写 Parquet 文件基本一致,在介绍 Delta Lake 实现原理之前先来看看如何使用它,具体使用如下: df.write.format("delta").save("/data/yangping.wyp/delta 阅读全文
posted @ 2020-04-26 14:50 大葱拌豆腐 阅读(1895) 评论(0) 推荐(0)
摘要: 转载自:https://www.cnblogs.com/kehanc/p/12107630.html 本文主要从代码的具体实现方面进行讲解,关于delta lake的事务日志原理,可以看这篇博客,讲解的很详细。 https://mp.weixin.qq.com/s?__biz=MzA5MTc0NTM 阅读全文
posted @ 2020-04-26 10:10 大葱拌豆腐 阅读(625) 评论(0) 推荐(0)
摘要: Parquet是一种列式存储格式,很多种处理引擎都支持这种存储格式,也是spark sql的默认存储格式。Spark SQL支持灵活的读和写Parquet文件,并且对parquet文件的schema可以自动解析。当Spark SQL需要写成Parquet文件时,处于兼容的原因所有的列都被自动转化为了 阅读全文
posted @ 2020-04-26 08:48 大葱拌豆腐 阅读(3905) 评论(0) 推荐(0)
摘要: 1. 背景介绍 将一份数据量很大的用户属性文件解析成结构化的数据供查询框架查询剖析,其中用户属性包含用户标识,平台类型,性别,年龄,学历,兴趣爱好,购物倾向等等,大概共有七百个左右的标签属性。为了查询框架能够快速查询出有特定标签的人群,将最终的存储结果定义为了将七百个左右的标签属性展平存储为parq 阅读全文
posted @ 2020-04-26 08:37 大葱拌豆腐 阅读(1441) 评论(0) 推荐(0)