随笔分类 -  爬虫

学习爬虫记录下来的东西
摘要:建立项目 编写spider 知乎的登录页url是 , 为了方便重写 测试能不能正确返回, 返回结果是 在settings中假如USER_AGENT再进行测试, 返回200, 说明是知乎验证浏览器的问题, 到此可以成功请求到 确定post都需要传入哪些参数, 使用开发者工具得到post值如下(没有出现 阅读全文
posted @ 2016-10-02 14:30 qlshine 阅读(3286) 评论(0) 推荐(1)
摘要:西刺代理爬虫 1. 新建项目和爬虫 2. 测试 返回500, 猜测是没有加 导致 返回正常 3. 在项目的settings中去掉 的注释 4. 编写items.py item定义存储哪些字段 5. 编写spider 编写spider的时候可以通过命令行工具 来测试要提取数据的xpath语法, 这样更 阅读全文
posted @ 2016-10-01 17:40 qlshine 阅读(5442) 评论(0) 推荐(3)