scrapy的自我修养2动态页面

可以将 Selenium 或 Pyppeteer 通过 Downloader Middleware 和 Scrapy 融合起来,实现 JavaScript 渲染页面的抓取。

  • gerapy-pyppeteer提供了两部分内容,一部分是Downloader Middleware,一部分是Request。

  

  • 首先我们需要开启中间件,在setting里面开启PyppeteerMiddleware,配置Setting文件。

 

DOWNLOADER_MIDDLEWARES = {
    'gerapy_pyppeteer.downloadermiddlewares.PyppeteerMiddleware': 543,
}

 

 

 

  • 将sprider里的request修改为PyppeteerRequest ,PyppeteerRequest 提供一个参数,wait_for,通过这个参数Pyppeteer 需要等待特定的内容加载出来才算结束

    设置全局变量

CONCURRENT_REQUESTS = 3
GERAPY_PYPPETEER_HEADLESS = False

 

  • 修改解析方法,可以使用Response.text提取网页真实的源码,如何解析出想要的数据!!!!!未解决

 

posted @ 2021-07-13 21:46  BulletsintheBible  阅读(148)  评论(0)    收藏  举报