python爬虫个人小总结
这几天爬了豆瓣小组照片和小组成员信息,对一些小技术做下小结。源码在我的Github/mashaz上。
1.断点续爬
我的思路是把链接的list实时保存到文本文件里,每次打开后检测一次
2.Cookies
def Login(): f = open('cookies.txt','r') cookies = {} for line in f.read().split(','): name,value = line.strip().split('=',1) cookies[name] = value return cookies
3.CSV
第一次接触csv格式
cfile = file('info.csv','ab+') writer = csv.writer(cfile) writer.writerow(info) cfile.close()
刚逛v站看说豆瓣的防爬频率是白天40/min,晚上100/min,怪不得昨晚用的好好的,白天爬了一会儿就出验证码了。

浙公网安备 33010602011771号