摘要:
西刺代理爬虫 1. 新建项目和爬虫 2. 测试 返回500, 猜测是没有加 导致 返回正常 3. 在项目的settings中去掉 的注释 4. 编写items.py item定义存储哪些字段 5. 编写spider 编写spider的时候可以通过命令行工具 来测试要提取数据的xpath语法, 这样更 阅读全文
posted @ 2016-10-01 17:40
qlshine
阅读(5437)
评论(0)
推荐(3)
摘要:
对于要提取嵌套标签所有内容的情况, 使用 或`//text()`, 注意两者区别 使用text() 使用string 阅读全文
posted @ 2016-10-01 17:39
qlshine
阅读(4092)
评论(0)
推荐(0)
摘要:
查看所有命令 查看帮助信息 查看版本信息 新建一个工程 构建爬虫 (generator spider) 一个工程中可以存在多个spider, 但是名字必须唯一 查看当前项目内有多少爬虫 使用浏览器打开网页 shell命令, 进入scrpay交互环境 之后便进入交互环境 我们主要使用这里面的 命令, 阅读全文
posted @ 2016-10-01 17:39
qlshine
阅读(9747)
评论(0)
推荐(1)

浙公网安备 33010602011771号