摘要:
一、数据加载 (1)默认数据源(parquet) 最简单加载数据的方式,所有操作都使用默认数据源(parquet)。如果指定默认数据源需要配置 spark.sql.sources.default参数。 Dataset<Row> manDF = spark.read().load("hdfs://ma 阅读全文
posted @ 2021-03-29 23:36
茅坤宝骏氹
阅读(8)
评论(0)
推荐(0)
摘要:
一、创建DataSet DataSet与RDD相似,但是,它们不使用Java序列化或Kryo,而是使用专用的Encoder对对象进行序列化以进行网络处理或传输。虽然编码器和标准序列化都负责将对象转换为字节,但是编码器是动态生成的代码,并使用一种格式,该格式允许Spark执行许多操作,例如过滤,排序和 阅读全文
posted @ 2021-03-29 23:07
茅坤宝骏氹
阅读(7)
评论(0)
推荐(0)

浙公网安备 33010602011771号