08 2017 档案
摘要:打开文件:open(name[,mode[,buffering]]),返回一个文件对象,模式(mode)和缓冲(buffering)是两个可选参数。 假设有一个名为somefile.txt的文件,存储路径为c:\text,打开方式如下:f = open(r'C:\text\somefile.txt'
阅读全文
摘要:魔法方法(特殊方法):名称以双下划线和双下划线结尾的方法。 这些方法会在特殊情况下被Python直接调用,几乎没有直接调用的必要。 __init__():构造函数 __del__():析构函数 在其他语言中对象可能被要求属于某一个类,或被要求实现接口,但在Python中只是简单的要求它遵守几个给定的
阅读全文
摘要:Python用异常对象来表示异常情况,如果异常对象未被处理或捕捉,程序就会回溯(traceback)中止执行。 异常可以在出错时自动引发,也可以主动引发。 异常被引发后如果不被处理就会传播至程序调用的地方,直到主程序(全局作用域),如果主程序仍然没有异常处理,程序会带着栈跟踪终止。 raise:引发
阅读全文
摘要:通用序列操作: 索引,序列中元素从0开始递增,这些元素可以通过编号访问 分片,使用索引只能访问单个元素,分片操作可以访问一定范围内的元素。list[a:b]:a和b是两个索引作为边界,包含索引a对应函数,不包含b 序列相加,两种相同的序列才能进行连接操作 >>> a = [1,2,3] >>> b
阅读全文
摘要:基本认证(用户名密码) auth=(用户名,密码),明文传输,对 OAUTH认证,不能通过解码得到用户名和密码 使用方法:
阅读全文
摘要:cookie: session:
阅读全文
摘要:response对象: http状态码 利用response把流存储成图片或者文件 一个下载图片的实例 事件钩子:事件驱动型开发,基于回调。
阅读全文
摘要:阅读requests源码会有更清楚的理解。 tcp/ip的三次握手,使用requests每次请求会占用更多资源,使用session则可以重复使用一个request。 自定义requests:首先定义session(proxy,timeout,verify……),定义request(body,head
阅读全文
摘要:利用requests发出请求时可能会发生异常,requests中有一个exception库用来区分这些异常。 http协议是基于tcp/ip协议的,tcp/ip三次握手,因此可以在请求中定义等待时间,超出等待时间仍未到达则请求失败。如requests.get(url,timeout=(3,7)),r
阅读全文
摘要:requests请求方法:requests.[method](url) get:查看资源 post:增加资源 patch:修改资源 put:修改,替换资源 delete:删除 head:查看响应头 options:查看可用请求方法 github上有很多API,users 带参数的请求:服务端需要知道
阅读全文
摘要:调度器: url管理器: 网页下载器: 网页解析器: 输出:
阅读全文
摘要:基本架构:调度器,url管理器,网页下载器,网页解析器 调度器:启动爬虫,关闭爬虫,监视爬虫的进度 url管理器:管理待爬取的URL和已爬取的URL 需要支持:添加新URL到待爬取集合 判断待添加URL是否已经被爬取 获取待爬取URL,判断是否还有带爬取的URL 被爬取之后将该URL从待爬取集合移动
阅读全文

浙公网安备 33010602011771号