随笔分类 - 爬虫
学习爬虫记录下来的东西
摘要:建立项目 编写spider 知乎的登录页url是 , 为了方便重写 测试能不能正确返回, 返回结果是 在settings中假如USER_AGENT再进行测试, 返回200, 说明是知乎验证浏览器的问题, 到此可以成功请求到 确定post都需要传入哪些参数, 使用开发者工具得到post值如下(没有出现
阅读全文
摘要:西刺代理爬虫 1. 新建项目和爬虫 2. 测试 返回500, 猜测是没有加 导致 返回正常 3. 在项目的settings中去掉 的注释 4. 编写items.py item定义存储哪些字段 5. 编写spider 编写spider的时候可以通过命令行工具 来测试要提取数据的xpath语法, 这样更
阅读全文

浙公网安备 33010602011771号