Spark数据清洗demo 简单理解
ref: https://blog.csdn.net/weixin_38468167/article/details/109814909
整体思路:数据格式化 ---> 数据格式定义
1 数据格式化(喂数据):把初始的数据转换成spark识别的rdd类型
2 数据格式定义(喂数据的特征):定义特征字段
这应该很好理解,对于spark而言,要执行数据清洗工作,必须得知道要清洗的数据,同时这个数据的格式,也应该是它认识的;
同时,对于这一堆抽象的数据,如果你不指定特征字段,它怎么去识别这一堆数据中,哪些是特征字段,哪些是字段的值,这样后续的清洗工作就没办法干了
对于清洗而言,应该是要预先指定特征字段,不然机器无法执行清洗任务。

浙公网安备 33010602011771号