python入门(1)文档的处理

最近在作一个有关自然语言处理的project，要处理大量的语料文本，而python这种脚本在处理字符串上又有其无可比拟的优势，所以就看了看这方面的书。以下是在做语料处理时遇到的一些问题，总结一下，也好以后再深入学习：

第一个问题就是大量文本读入的问题，因为通过语料分词处理后会生成大量的文本文档，想实现对这些文本的批处理，python中一个很好的包os帮了忙：

先在分词程序中将处理后的文档写入到同一文件夹下，这里就是“c:\data”吧，然后通过下面的代码实现：

import sys
import os 
def fun(path):#path 是路径
    for root,dirs,files in os.walk(path):
        for fn in files:
            filename=""
            filename=root+'\\'+fn

这里的path就是"C:\data"，文件路径作为参数输入，得到的filename 就是这个文件夹下的所有文档了。

详细的理解os.walk()这个方法，实际上它返回的是一个三元素的元组：当前路径、子文件夹名称、文件列表。这里对应的就是root,dirs,files。到这里我们自然会想到如果在data文件下还有其他的子文件夹，如果想递归找下去找到每个子文件中的非文件文档该怎么实现？好，带这问题，我在data文件夹下又放置了两个子文件data1和data2以及两个文本文档datatext2.txt和datatext1.txt.其中data1下又有data3和datdtxt1.txt,data3中放有一个test.txt文档。data2下放置了两个文本文档datatext2.txt和datatext1.txt。要想找到最底层的那个文档test.txt怎么办？

先找子文件

import sys
import os
def fun(path):
    for root,dirs,files in os.walk(path):
        for dir in dirs:
            print dir

遗憾的是输出的为
>>> fun(r'C:\data')
data1
data2
data3

也就是说这个方法能找到当前目录下的所有子文件，但是如果我们要访问test.txt,文档路径应该是"C:\data\data1\data3\test.txt"，可是现在输出的子文件名称并没有体现级别，怎么生成文本路径呢，带着试试的想法又去执行了下上面第一段代码：

输出：

>>> fun(r'C:\data')
C:\data\datatext2.txt
C:\data\datdtxt1.txt
C:\data\data1\datdtxt1.txt
C:\data\data1\data3\text.txt
C:\data\data2\datatext2.txt
C:\data\data2\datdtxt1.txt

这个结果如果是想遍历当前目录下的所有文档的话那就再好不过了，可是我要是只处理test.txt怎么办？以及要处理同以目录级下的文档该怎么办？先解决第二个问题，os中有很好的方法，让我们可以对要访问的文档设定在同一目录级下

例如，我现在只想访问一级下的文档，也就是"C:\data"下的文档datatext2.txt和datatext1.txt（不包括子文件下的文档）

import sys
import glob
import os
def fun(path):
    for fn in glob.glob(path+os.sep+'*'):
        if os.path.isfile(fn):
            filename=""
            filename=filename+fn
            print filename

输出：

>>> fun(r'C:\data')
C:\data\datatext2.txt
C:\data\datdtxt1.txt

这里用到了一个新的包glob和其中匹配方法glob（）；glob.glob()只接受一个参数，这个参数既代有路径（path），又代有匹配模式（'*'指的是所有文件）,返回值是一个列表，包括了当前path下的所有子文件，文档。因为其不能直接穿透子文件的原因给了我们灵活查找文档的功能。

那么第一个问题呢？可以通过递归向下去找，也可以通过列出目录文件树来找，但是都相对麻烦，既然os.walk（）可以穿透到最底层，那么可以利用这个性质

import sys
import os
COUNT=set()
def fun(path):
    for root,dirs,files in os.walk(path):
        for fn in files:
            filename=""
            filename=root+'\\'+fn
            global COUNT
            COUNT.add(filename)
    DeepFile()
def DeepFile():
    temp1=set()
    deepnum=0
    global COUNT
    for fn in COUNT:
        temp=[]
        temp=fn.split('\\')
        num=len(temp)
        if num==deepnum:
            temp1.add(fn)
        if num>deepnum:
            deepnum=num
            temp1.clear()
            temp1.add(fn)
    for fn in temp1:
        print fn

输出：

>>> fun(r'C:\data')
C:\data\data1\data3\text.txt

以上代码还有待改进，这种方法只能找到最底层文件中的文档

同时还总结了有关os包（python 文件操作包）下的一些有用的方法：

python:目录与文件操作
os.listdir(dirname)：列出dirname下的目录和文件
os.getcwd()：获得当前工作目录
os.curdir:返回但前目录（'.')
os.chdir(dirname):改变工作目录到dirname

os.path.isdir(name):判断name是不是一个目录，name不是目录就返回false
os.path.isfile(name):判断name是不是一个文件，不存在name也返回false
os.path.exists(name):判断是否存在文件或目录name
os.path.getsize(name):获得文件大小，如果name是目录返回0L
os.path.abspath(name):获得绝对路径
os.path.normpath(path):规范path字符串形式
os.path.split(name):分割文件名与目录（事实上，如果你完全使用目录，它也会将最后一个目录作为文件名而分离，同时它不会判断文件或目录是否存在）
os.path.splitext():分离文件名与扩展名
os.path.join(path,name):连接目录与文件名或目录
os.path.basename(path):返回文件名
os.path.dirname(path):返回文件路径

posted on 2012-10-28 21:29 翠竹林阅读(552) 评论(0) 收藏举报

刷新页面返回顶部

python入门(1)文档的处理

导航

公告