Scrapy - 随笔分类 - qlshine

Scrapy模拟登录知乎

摘要：建立项目编写spider 知乎的登录页url是 , 为了方便重写测试能不能正确返回, 返回结果是在settings中假如USER_AGENT再进行测试, 返回200, 说明是知乎验证浏览器的问题, 到此可以成功请求到确定post都需要传入哪些参数, 使用开发者工具得到post值如下(没有出现阅读全文

posted @ 2016-10-02 14:30 qlshine 阅读(3295) 评论(0) 推荐(1)

Scrapy爬取西刺代理ip流程

摘要：西刺代理爬虫 1. 新建项目和爬虫 2. 测试返回500, 猜测是没有加导致返回正常 3. 在项目的settings中去掉的注释 4. 编写items.py item定义存储哪些字段 5. 编写spider 编写spider的时候可以通过命令行工具来测试要提取数据的xpath语法, 这样更阅读全文

posted @ 2016-10-01 17:40 qlshine 阅读(5449) 评论(0) 推荐(3)

Scrapy提取多个标签的text

摘要：对于要提取嵌套标签所有内容的情况, 使用或`//text()`, 注意两者区别使用text() 使用string 阅读全文

posted @ 2016-10-01 17:39 qlshine 阅读(4103) 评论(0) 推荐(0)

Scrapy常用命令行工具

摘要：查看所有命令查看帮助信息查看版本信息新建一个工程构建爬虫 (generator spider) 一个工程中可以存在多个spider, 但是名字必须唯一查看当前项目内有多少爬虫使用浏览器打开网页 shell命令, 进入scrpay交互环境之后便进入交互环境我们主要使用这里面的命令, 阅读全文

posted @ 2016-10-01 17:39 qlshine 阅读(9757) 评论(0) 推荐(1)

qlshine

随笔分类 - Scrapy

公告