随笔档案「2013年5月11日」：用python爬虫抓站的一些技巧总结 ... - hellopython

2013年5月11日

用python爬虫抓站的一些技巧总结

摘要：学用python也有3个多月了，用得最多的还是各类爬虫脚本：写过抓代理本机验证的脚本，写过在discuz论坛中自动登录自动发贴的脚本，写过自动收邮件的脚本，写过简单的验证码识别的脚本，本来想写google music的抓取脚本的，结果有了强大的gmbox，也就不用写了。这些脚本有一个共性，都是和web相关的，总要用到获取链接的一些方法，再加上simplecd这个半爬虫半网站的项目，累积不少爬虫抓站的经验，在此总结一下，那么以后做东西也就不用重复劳动了。1.最基本的抓站import urllib2content = urllib2.urlopen('http://XXXX').r 阅读全文

posted @ 2013-05-11 22:03 hellopython 阅读(319) 评论(0) 推荐(0)

前端工程师知识结构图

摘要：阅读全文

posted @ 2013-05-11 17:46 hellopython 阅读(122) 评论(0) 推荐(0)

用python爬虫抓站的一些技巧总结

前端工程师知识结构图

导航

公告