查找相同文件及对应文件的删除

  小编最近在谷歌云盘上传文件时,发现trainImage文件夹下和trainMask文件下的文件数量不一致,便猜测可能因为网络不稳定的原因,上传了重复的文件。

a=glob(r'/content/drive/MyDrive/trainImage/*')
b=glob(r'/content/drive/MyDrive/trainMask/*')
I=[re.findall(r"/.*/.*/.*/.*/(.*)", b) for b in a]
M=[re.findall(r"/.*/.*/.*/.*/(.*)", x) for x in b]
c=[x for x in I if x in M]
d=[y for y in (I+M) if y not in c]
print(d)

 

 采用os.remove进行删除:

import os
for x in d:
  path=r'/content/drive/MyDrive/trainImage/'+x[0]
  os.remove(path)

 

 

再次运行上述代码:

 

   重复文件已删除。

posted @ 2021-03-14 23:57  为红颜  阅读(149)  评论(0编辑  收藏  举报