使用 python 遍历目录下的文件

看到邮件列表里面讨论遍历一个目录下的文件 最 pythonic 的做法。有点绕 但是确实简洁实用。效率也很高。收藏下。

 

分解下这神奇的一行代码吧

sum([[os.path.join(base,file) for file in files] for base,,files in os.walk(dir)],[])

这一句是两个嵌套的列表推倒,加上一个内置的sum函数得到了结果。sum在这里的用法不同于平常我们对sum的使用比较特殊。
列表推倒还是比较容易理解的。
首先外层的列表推倒 遍历出所有的 base 和 files, 这里的base是所有的路径,而files则是对应路径下的所有文件。
写成

In [16]: [(base, files) for base,,files in os.walk(dir)]
Out[16]:
[('/home/liwei/boxy',
['test.html',
'base.css',
'jquery-1.6.4.min.js',
'boxy.css',
'boxy.zip',
'jquery.boxy.js',
'clearboxy.css']),
('/home/liwei/boxy/images', ['icon
close.gif', 'poptbg.gif', 'btn.gif']),
('/home/liwei/boxy/bak', ['boxy
orig.css', 'screen.css'])]

可以看的很清楚了。路径和对应的文件列表。
然后对第一步列表推到得到的结果。再进行一次列表推到,作用是合并得到的路径和文件名,变成一个完整的路径。
单独拿一行出来。

('/home/liwei/boxy/bak', ['boxyorig.css', 'screen.css'])

这里要做的就是,吧上面这一行,变成下面这样的两行。

'/home/liwei/boxy/bak/boxyorig.css',
'/home/liwei/boxy/bak/screen.css',

方法也很简单,遍历出来的结果直接join就可以了。使用的是 os.path.join 这个方法。这里遍历了 files 。
合并起来

In [17]: [[os.path.join(base,file) for file in files] for base,,files in os.walk(dir)]
Out[17]:
[['/home/liwei/boxy/test.html',
'/home/liwei/boxy/base.css',
'/home/liwei/boxy/jquery-1.6.4.min.js',
'/home/liwei/boxy/boxy.css',
'/home/liwei/boxy/boxy.zip',
'/home/liwei/boxy/jquery.boxy.js',
'/home/liwei/boxy/clear
boxy.css'],
['/home/liwei/boxy/images/iconclose.gif',
'/home/liwei/boxy/images/pop
tbg.gif',
'/home/liwei/boxy/images/btn.gif'],
['/home/liwei/boxy/bak/boxy_orig.css', '/home/liwei/boxy/bak/screen.css']]

这一步得到了一个列表中嵌套列表的结构。
接下来轮到神奇的sum了。平常我们会用sum来计算一个列表的和例如

sum([1, 2, 3, 4])
10

这里的用法,简化了 实际上就是做了这么一件事情。

In [20]: sum([['a','b'],['c','d']],[])
Out[20]: ['a', 'b', 'c', 'd']

这里将一个二维的列表,拉平了。
sum本质上是把传给他的一个可迭代对象一个个的加起来,返回结果,我们知道列表也是可以相加的,得到的是一个新的列表,相当与是extend了原来的列表。sum可以接受第二个参数,它是一个可选参数,文档中介绍到,这个参数的作用是指定sum的起始元素,你可以设置成一个数值,一个列表,上面这个例子中,设置了一个空列表,相当与上面的代码执行了

[]+['a','b']+['c','d']

如果不给定起始的元素,那么sum默认会用一个int去加,这样就会报错了。int是不能和list相加的。
这个方法可以用于拉平一个列表。速度快,实用!

posted @ 2012-07-17 10:22  LemonLi  阅读(4180)  评论(4编辑  收藏