11 2017 档案

Scrapy爬虫的基本流程
摘要:首先要知道爬取的网站是否需要登陆(如知乎, 只有登陆才能访问某些数据), 是否需要headers等. 之后就是根据自己的需要爬取自己需要解析的网页 start_request_url是第一个函数, 如果不重载, 默认迭代调用start_urls中的所有链接, 然后交给parse(默认)函数处理, 也 阅读全文

posted @ 2017-11-28 19:49 banji 阅读(175) 评论(0) 推荐(0)

CrawlSpider源码分析
摘要:CrawlSpider是对Spider做了进一步的封装, 使得该类可以直接爬取一个网站.也就是说CrawlSpider是为了爬取整个网站设计的 CrawlSpider和Spider一样, 入口都是start_request, 如果想要模拟登陆, 可以重载这个函数, 然后callback自己定义的登陆 阅读全文

posted @ 2017-11-28 15:14 banji 阅读(207) 评论(0) 推荐(0)

模拟知乎登陆(requests和scrapy)
摘要:1. request 登录知乎需要向服务器提交的信息有: ①headers ②_xsrf ③captcha 需要通过解析页面获得_xsrf和captcha(验证码) 而有关captcha的获取则必须要用session的方式获得, 目的是为了使_xsrf和验证码信息一致 (因为session中可以保存 阅读全文

posted @ 2017-11-24 17:07 banji 阅读(255) 评论(0) 推荐(0)

导航