Python urllib URL 处理模块
包括 网页请求、响应获取、代理和cookie设置、异常处理、URL解析 等功能的Python模块
源代码: Lib/urllib/
urllib 是一个收集了多个用到 URL 的模块的包:
-
urllib.request打开和读取 URL -
urllib.error包含urllib.request抛出的异常 -
urllib.parse用于解析 URL -
urllib.robotparser用于解析robots.txt文件
urllib.request
urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
url:打开统一资源定位地址 url,可以是一个字符串或一个 Request 对象。
data:发送到响应服务器的其他数据的对象(eg:POST方式的数据包),默认为None
timeout:以 秒 为单位,用于超时连接的断开操作,只适用于HTTP、HTTPS、FTP连接。
cafile:包含CA证书的单个文件
capath:hash后的证书文件的目录路径
context:描述各种SSL选项的ssl.SSLContext实例
urllib.request.install_opener(opener)
将OpenerDirector实例安装为默认的全局启动器。
urllib.request.build_opener([handler, ...])
返回一个OpenerDirector实例,该实例按给定的顺序链接处理程序。handler可以是的实例,也可以是的BaseHandler子类BaseHandler(在这种情况下,必须可以不带任何参数地调用构造函数)。
urllib.request.pathname2url(path)
将路径名路径从路径的本地语法转换为URL的路径组件中使用的形式。
urllib.request.url2pathname(path)
将路径组件路径从百分比编码的URL 转换为路径的本地语法。
urllib.request.getproxies()
此辅助函数将方案字典返回到代理服务器URL映射。
class urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)
url 是一个含有一个有效的统一资源定位地址的字符串。
- class
urllib.request.OpenerDirector -
本
OpenerDirector类打开通过URLBaseHandler链接在一起。它管理处理程序的链接以及从错误中恢复。
- class
urllib.request.BaseHandler -
这是所有注册处理程序的基类---并且仅处理简单的注册机制。
- class
urllib.request.HTTPDefaultErrorHandler -
定义HTTP错误响应的默认处理程序的类;所有的回应都变成了
HTTPError例外。
- class
urllib.request.HTTPRedirectHandler -
一个用于处理重定向的类。
- class
urllib.request.HTTPCookieProcessor(cookiejar=None) -
一个用于处理 HTTP Cookies 的类。
- class
urllib.request.ProxyHandler(proxies=None)
使请求通过代理。如果给出了代理,则它必须是将协议名称映射到代理URL的字典。
参考资料:

浙公网安备 33010602011771号