2021 年 3月 29 日随笔档案 - 茅坤宝骏氹

2021年3月29日

摘要：一、数据加载（1）默认数据源（parquet）最简单加载数据的方式，所有操作都使用默认数据源（parquet）。如果指定默认数据源需要配置 spark.sql.sources.default参数。 Dataset<Row> manDF = spark.read().load("hdfs://ma 阅读全文

posted @ 2021-03-29 23:36 茅坤宝骏氹阅读(8) 评论(0) 推荐(0)

Spark SQL（四）之DataSet与RDD转换

摘要：一、创建DataSet DataSet与RDD相似，但是，它们不使用Java序列化或Kryo，而是使用专用的Encoder对对象进行序列化以进行网络处理或传输。虽然编码器和标准序列化都负责将对象转换为字节，但是编码器是动态生成的代码，并使用一种格式，该格式允许Spark执行许多操作，例如过滤，排序和阅读全文

posted @ 2021-03-29 23:07 茅坤宝骏氹阅读(7) 评论(0) 推荐(0)

茅坤宝骏氹

公告