python入门(1)文档的处理

最近在作一个有关自然语言处理的project,要处理大量的语料文本,而python这种脚本在处理字符串上又有其无可比拟的优势,所以就看了看这方面的书。以下是在做语料处理时遇到的一些问题,总结一下,也好以后再深入学习:

第一个问题就是大量文本读入的问题,因为通过语料分词处理后会生成大量的文本文档,想实现对这些文本的批处理,python中一个很好的包os帮了忙:

先在分词程序中将处理后的文档写入到同一文件夹下,这里就是“c:\data”吧,然后通过下面的代码实现:

import sys
import os 
def fun(path):#path 是路径
    for root,dirs,files in os.walk(path):
        for fn in files:
            filename=""
            filename=root+'\\'+fn


这里的path就是"C:\data",文件路径作为参数输入,得到的filename 就是这个文件夹下的所有文档了。

详细的理解os.walk()这个方法,实际上它返回的是一个三元素的元组:当前路径、子文件夹名称、文件列表。这里对应的就是root,dirs,files。到这里我们自然会想到如果在data文件下还有其他的子文件夹,如果想递归找下去找到每个子文件中的非文件文档该怎么实现?好,带这问题,我在data文件夹下又放置了两个子文件data1和data2以及两个文本文档datatext2.txt和datatext1.txt.其中data1下又有data3和datdtxt1.txt,data3中放有一个test.txt文档。data2下放置了两个文本文档datatext2.txt和datatext1.txt。要想找到最底层的那个文档test.txt怎么办?

先找子文件

import sys
import os
def fun(path):
    for root,dirs,files in os.walk(path):
        for dir in dirs:
            print dir

遗憾的是输出的为
>>> fun(r'C:\data')
data1
data2
data3

也就是说这个方法能找到当前目录下的所有子文件,但是如果我们要访问test.txt,文档路径应该是"C:\data\data1\data3\test.txt",可是现在输出的子文件名称并没有体现级别,怎么生成文本路径呢,带着试试的想法又去执行了下上面第一段代码:

输出:

>>> fun(r'C:\data')
C:\data\datatext2.txt
C:\data\datdtxt1.txt
C:\data\data1\datdtxt1.txt
C:\data\data1\data3\text.txt
C:\data\data2\datatext2.txt
C:\data\data2\datdtxt1.txt

这个结果如果是想遍历当前目录下的所有文档的话那就再好不过了,可是我要是只处理test.txt怎么办?以及要处理同以目录级下的文档该怎么办?先解决第二个问题,os中有很好的方法,让我们可以对要访问的文档设定在同一目录级下

例如,我现在只想访问一级下的文档,也就是"C:\data"下的文档datatext2.txt和datatext1.txt(不包括子文件下的文档)

import sys
import glob
import os
def fun(path):
    for fn in glob.glob(path+os.sep+'*'):
        if os.path.isfile(fn):
            filename=""
            filename=filename+fn
            print filename

输出:

>>> fun(r'C:\data')
C:\data\datatext2.txt
C:\data\datdtxt1.txt

这里用到了一个新的包glob和其中匹配方法glob();glob.glob()只接受一个参数,这个参数既代有路径(path),又代有匹配模式('*'指的是所有文件),返回值是一个列表,包括了当前path下的所有子文件,文档。因为其不能直接穿透子文件的原因给了我们灵活查找文档的功能。

那么第一个问题呢?可以通过递归向下去找,也可以通过列出目录文件树来找,但是都相对麻烦,既然os.walk()可以穿透到最底层,那么可以利用这个性质

import sys
import os
COUNT=set()
def fun(path):
    for root,dirs,files in os.walk(path):
        for fn in files:
            filename=""
            filename=root+'\\'+fn
            global COUNT
            COUNT.add(filename)
    DeepFile()
def DeepFile():
    temp1=set()
    deepnum=0
    global COUNT
    for fn in COUNT:
        temp=[]
        temp=fn.split('\\')
        num=len(temp)
        if num==deepnum:
            temp1.add(fn)
        if num>deepnum:
            deepnum=num
            temp1.clear()
            temp1.add(fn)
    for fn in temp1:
        print fn

输出:

>>> fun(r'C:\data')
C:\data\data1\data3\text.txt

以上代码还有待改进,这种方法只能找到最底层文件中的文档

同时还总结了有关os包(python 文件操作包)下的一些有用的方法:

python:目录与文件操作
os.listdir(dirname):列出dirname下的目录和文件
os.getcwd():获得当前工作目录
os.curdir:返回但前目录('.')
os.chdir(dirname):改变工作目录到dirname

os.path.isdir(name):判断name是不是一个目录,name不是目录就返回false
os.path.isfile(name):判断name是不是一个文件,不存在name也返回false
os.path.exists(name):判断是否存在文件或目录name
os.path.getsize(name):获得文件大小,如果name是目录返回0L
os.path.abspath(name):获得绝对路径
os.path.normpath(path):规范path字符串形式
os.path.split(name):分割文件名与目录(事实上,如果你完全使用目录,它也会将最后一个目录作为文件名而分离,同时它不会判断文件或目录是否存在)
os.path.splitext():分离文件名与扩展名
os.path.join(path,name):连接目录与文件名或目录
os.path.basename(path):返回文件名
os.path.dirname(path):返回文件路径

posted on 2012-10-28 21:29  翠竹林  阅读(535)  评论(0编辑  收藏  举报

导航