python爬虫个人小总结

这几天爬了豆瓣小组照片和小组成员信息，对一些小技术做下小结。源码在我的Github/mashaz上。

1.断点续爬

我的思路是把链接的list实时保存到文本文件里，每次打开后检测一次

2.Cookies

def Login():  
    f = open('cookies.txt','r')
    cookies = {}
    for line in f.read().split(','):
        name,value = line.strip().split('=',1)
        cookies[name] = value
    return cookies

3.CSV

第一次接触csv格式

cfile = file('info.csv','ab+')
            writer = csv.writer(cfile)
            writer.writerow(info)
            cfile.close()

刚逛v站看说豆瓣的防爬频率是白天40/min,晚上100/min,怪不得昨晚用的好好的，白天爬了一会儿就出验证码了。

posted @ 2017-03-04 15:57 mashaz 阅读(213) 评论(0) 收藏举报

刷新页面返回顶部

mashaz

python爬虫个人小总结

公告