随笔档案「2021年3月」 - 茅坤宝骏氹

Spark SQL（六）之加载数据的参数配置

摘要：一、配置忽略损坏的文件、忽略丢失的文件、路径全局过滤器、递归文件查找和修改时间路径过滤器等选项/配置仅在使用基于文件的源（parquet，orc，avro，json，csv，txt）时才有效。以下示例中使用的目录层次结构为： dir/ ├── childDir/ │ └── test.json 阅读全文

posted @ 2021-03-31 21:28 茅坤宝骏氹阅读(38) 评论(0) 推荐(0)

Spark SQL（五）之数据加载与存储

摘要：一、数据加载（1）默认数据源（parquet）最简单加载数据的方式，所有操作都使用默认数据源（parquet）。如果指定默认数据源需要配置 spark.sql.sources.default参数。 Dataset<Row> manDF = spark.read().load("hdfs://ma 阅读全文

posted @ 2021-03-29 23:36 茅坤宝骏氹阅读(25) 评论(0) 推荐(0)

Spark SQL（四）之DataSet与RDD转换

摘要：一、创建DataSet DataSet与RDD相似，但是，它们不使用Java序列化或Kryo，而是使用专用的Encoder对对象进行序列化以进行网络处理或传输。虽然编码器和标准序列化都负责将对象转换为字节，但是编码器是动态生成的代码，并使用一种格式，该格式允许Spark执行许多操作，例如过滤，排序和阅读全文

posted @ 2021-03-29 23:07 茅坤宝骏氹阅读(22) 评论(0) 推荐(0)

茅坤宝骏氹

03 2021 档案

公告