2016年12月11日

linux 基础

摘要: 阅读全文

posted @ 2016-12-11 12:46 便宜土豪 阅读(79) 评论(0) 推荐(0)

2016年11月15日

python 豆瓣图片的爬取

摘要: 豆瓣图片的抓取:在python中实现生产者和消费者模型的实现,大家可以参考这篇文章 http://www.bkjia.com/Pythonjc/978391.html 个人认为是讲的比较易懂的,只要看看仿写几个例子,感觉这一块就差不多了。下面的代码并没有抓取豆瓣相册的全部,这是找了一个推荐较多的抓取 阅读全文

posted @ 2016-11-15 10:12 便宜土豪 阅读(1207) 评论(0) 推荐(0)

2016年11月11日

scrapy 知乎的模拟登陆及抓取用户数据

摘要: 最近看了python的scrapy 框架并用其抓取了部分知乎用户数据,代码主要是集中在知乎登陆和抓取时候的逻辑处理上。 1、 首先进入知乎登陆页面zhihu.com/#sigin上, 用xpath提取_xsrf参数, 获取验证码的部分url,完整的url是由当前的时间戳和type参数构成,利用得到的 阅读全文

posted @ 2016-11-11 16:39 便宜土豪 阅读(536) 评论(1) 推荐(1)

2016年11月6日

python-微博模拟登陆

摘要: 微博的的模拟登陆是比较坑的,看了网上很多大神的帖子,自己又看了微博的登陆时的json数据:1、发现登陆时在输入账号时用chrome可以看到会有一个prelogin之类的网址,网址后面会有大串的随机数。我测试了下,发现在没有随机数的情况下的网址也能得到所需要的severtime、nonce、等几个数据 阅读全文

posted @ 2016-11-06 10:23 便宜土豪 阅读(222) 评论(4) 推荐(0)

2016年11月5日

拉钩网爬取所有python职位信息

摘要: 最近在找工作,所以爬取了拉钩网的全部python职位,以便给自己提供一个方向。拉钩网的数据还是比较容易爬取的,得到json数据直接解析就行,废话不多说, 直接贴代码: 代码写得比较急,就没怎么规范。 过两天把微博和豆瓣的代码发出来,希望园里的大神多指点^_^ 阅读全文

posted @ 2016-11-05 11:45 便宜土豪 阅读(893) 评论(2) 推荐(0)

导航