2020 年 4月 26 日随笔档案 - 大葱拌豆腐

2020年4月26日

Apache Spark Delta Lake 写数据使用及实现原理代码解析(转载)

摘要： Delta Lake 写数据是其最基本的功能，而且其使用和现有的 Spark 写 Parquet 文件基本一致，在介绍 Delta Lake 实现原理之前先来看看如何使用它，具体使用如下： df.write.format("delta").save("/data/yangping.wyp/delta 阅读全文

posted @ 2020-04-26 14:50 大葱拌豆腐阅读(1895) 评论(0) 推荐(0)

Delta Lake源码分析(一)（转载）

摘要：转载自：https://www.cnblogs.com/kehanc/p/12107630.html 本文主要从代码的具体实现方面进行讲解，关于delta lake的事务日志原理，可以看这篇博客，讲解的很详细。 https://mp.weixin.qq.com/s?__biz=MzA5MTc0NTM 阅读全文

posted @ 2020-04-26 10:10 大葱拌豆腐阅读(625) 评论(0) 推荐(0)

Spark SQL的Parquet那些事儿

摘要： Parquet是一种列式存储格式，很多种处理引擎都支持这种存储格式，也是spark sql的默认存储格式。Spark SQL支持灵活的读和写Parquet文件，并且对parquet文件的schema可以自动解析。当Spark SQL需要写成Parquet文件时，处于兼容的原因所有的列都被自动转化为了阅读全文

posted @ 2020-04-26 08:48 大葱拌豆腐阅读(3905) 评论(0) 推荐(0)

spark生成大宽表的parquet性能优化（转载）

摘要： 1. 背景介绍将一份数据量很大的用户属性文件解析成结构化的数据供查询框架查询剖析，其中用户属性包含用户标识，平台类型，性别，年龄，学历，兴趣爱好，购物倾向等等，大概共有七百个左右的标签属性。为了查询框架能够快速查询出有特定标签的人群，将最终的存储结果定义为了将七百个左右的标签属性展平存储为parq 阅读全文

posted @ 2020-04-26 08:37 大葱拌豆腐阅读(1441) 评论(0) 推荐(0)

公告