摘要:
一、学习目标 掌握使用Docker容器化爬虫项目及其依赖环境 学习使用Scrapyd部署和管理Scrapy爬虫 了解Gerapy作为Scrapyd的图形化管理工具 能够配置定时任务(cron / APScheduler)自动运行爬虫 熟悉爬虫日志管理与简单监控 构建一个可部署、可调度、可监控的爬虫系 阅读全文
posted @ 2026-02-21 20:51
头发少的文不识
阅读(3)
评论(0)
推荐(0)
摘要:
一、实践练习 练习1:使用Scrapy‑Redis分布式爬取豆瓣电影 目标:将之前的豆瓣电影爬虫改造为分布式版本,多台机器协同抓取。 安装scrapy‑redis,修改settings.py: python SCHEDULER = "scrapy_redis.scheduler.Scheduler" 阅读全文
posted @ 2026-02-21 20:51
头发少的文不识
阅读(2)
评论(0)
推荐(0)
摘要:
一、学习目标 理解分布式爬虫的原理与优势 掌握Scrapy‑Redis实现分布式爬虫的方法 学习数据存储方案:MySQL与MongoDB 掌握增量爬取与去重策略 能够将Scrapy爬虫集成到其他Python程序中(CrawlerRunner) 完成一个分布式爬虫项目,并将数据存入数据库 二、学习内容 阅读全文
posted @ 2026-02-21 20:50
头发少的文不识
阅读(3)
评论(0)
推荐(0)
浙公网安备 33010602011771号