Python进阶 文件

Python进阶   文件

一、预备知识

1、文件是指储存在某种长期储存设备中的一段数据。计算机能够直接读取的以二进制类型储存的数据。文件有从能否被文本编辑软件查看分为文本文件(能)和二进制文件(不能被文本编辑器查看,但是能提供给其他软件使用)

2、流:流是类似于文件的对象,可以支持一些文件对象的方法

3、Python解释器自带数据结构,程序通过文件和流使得程序能够与外界交互

4、管道字符 | ,管道字符连接多个多个命令,将一个命令的标准输出链接到下一个命令的标准输入

5、fileinput实现延迟迭代,延迟的含义:只读取实际需要的文本部分

6、函数open()-文件名区分大小写、read()-文件指针、f.readline()、f.readlines()、f.write()、f.writelines()、|和sys、close()、模块io中的方法:seek()-随机存取

7、Python当中常用的文件/目录管理工作:os模块、sys模块式、fileinput模块

8、fileinput模块:读取大文件,Readlines将占用大量内存,fileinput模块可以实现实现延迟行迭代

import fileinput
for line in fileinput.input(filename):
    process(line)

 

二、文件模式

1、打开文件,Python使用函数open函数,open函数位于自动导入的模块io

with open("Boss直聘.txt", "a", encoding="utf-8") as file:
    file.write((gs + "," + cs + "," + gzyq + "," + str(rs) + "," + gz + "," + name + "," + detail))
    file.write("\n")

2、文件打开模式:默认模式 ‘rt’

1、‘r’:读取模式,默认值

2、‘w’:写入模式,写入文件,文件不存在时创建新的文件

3、‘x’:独占写入模式,写入文件,文件存在时会引发 FileExistsErroe

4、‘a’:附加模式,

5、‘b’:二进制模式(与其他模式结合使用)

6、‘t’:文本模式(默认值,与其他模式结合使用)

7、‘+’:读写模式(与其他模式结合使用)

8、编码策略:encoding="utf-8",Python解释器默认是是 UTF-8;编码出现错误策略:errors

2、with语句:允许使用上下文管理器(支持两个方法的Python对象)

1、wiht语句:Python解释器到达语句末尾时,将自动关闭文件,即是出现异常亦如此

    with open("Boss直聘.txt", "a", encoding="utf-8") as file:
        file.write((gs + "," + cs + "," + gzyq + "," + str(rs) + "," + gz + "," + name + "," + detail))
        file.write("\n")

2、、上下文管理器:支持__enter__和__exit__两种方法的对象。文件也可以作为上下文管理器,__enter__返回的是文件对象本身,方法__exit__是关闭文件。

注:

__enter__不接受任何参数,被调用后返回值被赋给as后面的变量

__exit__接受三个参数,异常类型,异常对象和异常跟踪,Python解释器离开方法时调用并通过这些参数将引发的异常提供给该方法

三、标准库:os、sys、fileinpu

1、os模块:能够访问到多个与操作系统关系密切的变量和函数

# os模块常用方法
  
os.remove():  删除文件
  
os.getcwd():  获取当前工作目录,(即当前Python脚本工作的目录路径)

os.chdir('dirname'):  改变当前脚本的工作目录,相当于shell下的cd

os.system('bash command'):  运行shell命令,直接显示(相当于启动一个全新的shell,然后去执行那条命令,命令执行完成过后,shell直接退出)

os.curdir:  返回当前目录字符串名

os.pardir:  返回当前目录的父目录的字符串名

os.makedirs('dirname1/dirname2'):  可生成一个多层递归目录

os.removedirs('dirname1'):  若目录为空,则删除,并递归到上一级目录,如若也为空,则删除,依次类推

os.mkdir('dirname'):  创建一个目录

os.rmdir('dirname'):  删除一个目录,若目录不为空则无法删除,报错

os.listdir('dirname'):  显示指定目录下,所有的文件和子目录,包括隐藏文件

os.rename('oldname','newname'):  重命名文件/目录,如果新的文件名/目录名已经存在,则会报错

os.stat(' path/filename'):  获取文件/目录信息,并可以获取到文件的大小

os.sep:  输出操作系统特定的路径分隔符 ,如:win 为‘\\’,Linux为‘/’

os.liesep:  输出当前平台使用的行终止符,如 win为 ‘\t\n’,Linux为‘\n’

os.pathsep:  输出用于分割文件路径的字符串

os.name:  输出字符串指示当前使用平台,如 win ->'nt' ; Linux ->'posix'

os.environ:  获取操作系统的环境变量

os.path.abspath(path):  返回path规范化的绝对路径

os.path.split(path):   将path分割成目录和文件名二元组返回

os.path.dirname(path):  返回path的目录

os.path.basename(path):  返回path最后的文件名(一个绝对路径只返回最后的文件名)

os.path.exists(path):  判断路径是否存在,如果path存在,返回True;如果不存在,返回Flase

os.path.isabs(path):  判断是否是绝对路径,如果是,则返回True

os.path.isfile(path):  判断是否是一个文件

os.path.isdir(path):  判断是否是一个存在的目录

os.path.join(path1[,path2[,.......]]):  将路径和文件名分为一个列表中的两个元素,将它们拼起来

os.path.getatime(path):  返回path所指向的文件或者目录的最后存取时间

os.path.getmtime(path):  返回path所指向的文件或者目录的最后修改时间

os.popen('dir'):  相当于打开了一个临时的文件存储打开的目录(可以赋给变量,字符串的形式) 

四、文本文件的编码格式

1、ASCII码(1个字节描述一个字符,而二进制一个字节有8位,所以字符描述情况有 2^8=256种)

2、UTF-8(一种UNICODE编码) 使用1-6个字节描述一个字符。UTF-8基本包含世界各地所有的字符,大多数汉字使用的是3个字节定义的字符。

注:

1、Python2解释器中默认ASCII码,所以遇见中文字符会报错。如果使用中文字符,所有在程序前面加一行注释:# *-* coding:utf8 *-*。

2、Python2中在字符串前增加‘u’可以提醒Python解释器该字符串是以uft8编码格式。如:x = u'石斛'

# -*- coding: UTF-8 -*-
posted @ 2019-12-09 19:16  石斛  阅读(284)  评论(0编辑  收藏  举报