Spark数据清洗demo 简单理解

整体思路：数据格式化 ---> 数据格式定义

1 数据格式化（喂数据）：把初始的数据转换成spark识别的rdd类型

2 数据格式定义（喂数据的特征）：定义特征字段

这应该很好理解，对于spark而言，要执行数据清洗工作，必须得知道要清洗的数据，同时这个数据的格式，也应该是它认识的；

同时，对于这一堆抽象的数据，如果你不指定特征字段，它怎么去识别这一堆数据中，哪些是特征字段，哪些是字段的值，这样后续的清洗工作就没办法干了

对于清洗而言，应该是要预先指定特征字段，不然机器无法执行清洗任务。

posted @ 2021-10-15 16:38 Caesar_the_great 阅读(444) 评论(0) 收藏举报

刷新页面返回顶部

Caesar_the_great