随笔分类 -  python与爬虫

摘要:这是我学习爬虫比较深入的一步了,大部分的网页抓取用urllib2都可以搞定,但是涉及到JavaScript的时候,urlopen就完全傻逼了,所以不得不用模拟浏览器,方法也有很多,此处我采用的是selenium2+phantomjs,原因在于:selenium2支持所有主流的浏览器和phantomj... 阅读全文
posted @ 2014-06-06 15:03 陈清扬 阅读(23143) 评论(3) 推荐(2)
摘要:这是某个大作业的总结,但是涵盖了所有静态页面爬虫的种类,绕过验证码、防ip被封等等,所以贴在了这里。若要了解模拟登录及验证码,请直接往下拽,至第二幅图片下面------------------------------------------------------------------------... 阅读全文
posted @ 2014-05-31 10:01 陈清扬 阅读(2204) 评论(2) 推荐(1)