文件查重

硬盘上积累了太多的文件,主要是有很多图片重复了。

先来查重文件吧。

 

 1 df=pd.DataFrame()
 2 fps,hashcodes=[],[]
 3 for parent,dirs,files in os.walk(os.getcwd()):
 4      for file in files:
 5          fp=os.path.join(parent,file)
 6          with open(fp,'rb') as f:
 7              a=f.read()
 8              fps.append(fp)
 9              hashcodes.append(hash(a))
10 df=pd.DataFrame({'filepath':fps,'hashcode':hashcodes})

 

posted @ 2022-12-25 12:05  小娟小夏  阅读(234)  评论(0)    收藏  举报