用uniq来处理重复数据--交集-差集-计数等

经常有这样的需求:两个文本文件要求取重复的行或只取不重复的,简单的情况下用sort和uniq来处理是非常方便的:
利用现存两个文件,生成一个新的文件

  1. 取出两个文件的并集(重复的行只保留一份)

  2. 取出两个文件的交集(只留下同时存在于两个文件中的文件)

  3. 删除交集,留下其他的行

  4. cat file1 file2 | sort | uniq

  5. cat file1 file2 | sort | uniq -d

  6. cat file1 file2 | sort | uniq -u

当然如果需要计数也有一个很好的参数uniq -c 可以将相同行数的计数放在行首

posted @ 2022-02-21 16:46  ZhaoJunTao  阅读(68)  评论(0)    收藏  举报