scrapy的自我修养2动态页面
可以将 Selenium 或 Pyppeteer 通过 Downloader Middleware 和 Scrapy 融合起来,实现 JavaScript 渲染页面的抓取。
- gerapy-pyppeteer提供了两部分内容,一部分是Downloader Middleware,一部分是Request。
- 首先我们需要开启中间件,在setting里面开启PyppeteerMiddleware,配置Setting文件。
DOWNLOADER_MIDDLEWARES = { 'gerapy_pyppeteer.downloadermiddlewares.PyppeteerMiddleware': 543, }
- 将sprider里的request修改为PyppeteerRequest ,PyppeteerRequest 提供一个参数,wait_for,通过这个参数Pyppeteer 需要等待特定的内容加载出来才算结束
设置全局变量
CONCURRENT_REQUESTS = 3
GERAPY_PYPPETEER_HEADLESS = False
- 修改解析方法,可以使用Response.text提取网页真实的源码,如何解析出想要的数据!!!!!未解决
浙公网安备 33010602011771号