随笔分类 -  Scrapy

学习历程
摘要:建立项目 编写spider 知乎的登录页url是 , 为了方便重写 测试能不能正确返回, 返回结果是 在settings中假如USER_AGENT再进行测试, 返回200, 说明是知乎验证浏览器的问题, 到此可以成功请求到 确定post都需要传入哪些参数, 使用开发者工具得到post值如下(没有出现 阅读全文
posted @ 2016-10-02 14:30 qlshine 阅读(3286) 评论(0) 推荐(1)
摘要:西刺代理爬虫 1. 新建项目和爬虫 2. 测试 返回500, 猜测是没有加 导致 返回正常 3. 在项目的settings中去掉 的注释 4. 编写items.py item定义存储哪些字段 5. 编写spider 编写spider的时候可以通过命令行工具 来测试要提取数据的xpath语法, 这样更 阅读全文
posted @ 2016-10-01 17:40 qlshine 阅读(5442) 评论(0) 推荐(3)
摘要:查看所有命令 查看帮助信息 查看版本信息 新建一个工程 构建爬虫 (generator spider) 一个工程中可以存在多个spider, 但是名字必须唯一 查看当前项目内有多少爬虫 使用浏览器打开网页 shell命令, 进入scrpay交互环境 之后便进入交互环境 我们主要使用这里面的 命令, 阅读全文
posted @ 2016-10-01 17:39 qlshine 阅读(9750) 评论(0) 推荐(1)
摘要:对于要提取嵌套标签所有内容的情况, 使用 或`//text()`, 注意两者区别 使用text() 使用string 阅读全文
posted @ 2016-10-01 17:39 qlshine 阅读(4093) 评论(0) 推荐(0)