scrapy的自我修养2动态页面

可以将 Selenium 或 Pyppeteer 通过 Downloader Middleware 和 Scrapy 融合起来，实现 JavaScript 渲染页面的抓取。

DOWNLOADER_MIDDLEWARES = {
    'gerapy_pyppeteer.downloadermiddlewares.PyppeteerMiddleware': 543,
}

将sprider里的request修改为PyppeteerRequest ，PyppeteerRequest 提供一个参数，wait_for，通过这个参数Pyppeteer 需要等待特定的内容加载出来才算结束

　　　　设置全局变量

CONCURRENT_REQUESTS = 3
GERAPY_PYPPETEER_HEADLESS = False

posted @ 2021-07-13 21:46 BulletsintheBible 阅读(158) 评论(0) 收藏举报

刷新页面返回顶部