会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
楔子
博客园
首页
新随笔
联系
订阅
管理
2020年7月22日
Linux文件内容去重及文件求交并差集
摘要: 一、数据去重 日常工作中,使用Hive或者Impala查询导出来可能会存在数据重复的现象,但又不想重新执行一遍查询(查询时间稍长,导出文件内容多),因此想到了使用Linux命令将文件的内容重复数据进行去除。 案例如下: 可以看到aaa.txx有3条重复数据 想去掉多余的数据,只保留一条 sort a
阅读全文
posted @ 2020-07-22 16:54 楔子
阅读(596)
评论(0)
推荐(0)