摘要: 一、数据去重 日常工作中,使用Hive或者Impala查询导出来可能会存在数据重复的现象,但又不想重新执行一遍查询(查询时间稍长,导出文件内容多),因此想到了使用Linux命令将文件的内容重复数据进行去除。 案例如下: 可以看到aaa.txx有3条重复数据 想去掉多余的数据,只保留一条 sort a 阅读全文
posted @ 2020-07-22 16:54 楔子 阅读(596) 评论(0) 推荐(0)