在进行大数据量清洗时,可以选择使用数据的导入导出方式实现数据的快速清洗。
在一张数据量较大,且数据字段较多的数据表中,如果使用程序逐条进行数据清洗,处理速度会受提交频率、网络、SQL解析等影响,执行率较慢。
可以创建一张数据清洗空表,数据字段包括业务主表的ID和要清洗的列。
在清洗程序中,读取业务主表的所有数据,清洗后的数据保存到单独的csv数据文件中。如果清洗电脑内存较小,数据量巨大,可以进行分段处理。
将csv文件导入数据清洗表中。
执行关联修改脚本,实现业务主表的数据修改,代码如下:
UPDATE 业务主表 t1 LEFT JOIN 数据清洗表 t2 ON t1.ID = t2.ID SET t1.源数据字段1 = t2.清洗数据字段2,t1.源数据字段2 = t2.清洗数据字段2 【WHERE 查询条件】
此方法同样可应用于不同数据库之间的数据处理。
浙公网安备 33010602011771号