摘要: 12 阅读全文
posted @ 2026-03-13 21:42 头发少的文不识 阅读(2) 评论(0) 推荐(0)
摘要: 12 阅读全文
posted @ 2026-03-12 23:30 头发少的文不识 阅读(2) 评论(0) 推荐(0)
摘要: 12 阅读全文
posted @ 2026-03-11 23:09 头发少的文不识 阅读(2) 评论(0) 推荐(0)
摘要: 2 阅读全文
posted @ 2026-03-10 23:15 头发少的文不识 阅读(1) 评论(0) 推荐(0)
摘要: 一、学习目标 掌握使用Docker容器化爬虫项目及其依赖环境 学习使用Scrapyd部署和管理Scrapy爬虫 了解Gerapy作为Scrapyd的图形化管理工具 能够配置定时任务(cron / APScheduler)自动运行爬虫 熟悉爬虫日志管理与简单监控 构建一个可部署、可调度、可监控的爬虫系 阅读全文
posted @ 2026-02-21 20:51 头发少的文不识 阅读(6) 评论(0) 推荐(0)
摘要: 一、实践练习 练习1:使用Scrapy‑Redis分布式爬取豆瓣电影 目标:将之前的豆瓣电影爬虫改造为分布式版本,多台机器协同抓取。 安装scrapy‑redis,修改settings.py: python SCHEDULER = "scrapy_redis.scheduler.Scheduler" 阅读全文
posted @ 2026-02-21 20:51 头发少的文不识 阅读(2) 评论(0) 推荐(0)
摘要: 一、学习目标 理解分布式爬虫的原理与优势 掌握Scrapy‑Redis实现分布式爬虫的方法 学习数据存储方案:MySQL与MongoDB 掌握增量爬取与去重策略 能够将Scrapy爬虫集成到其他Python程序中(CrawlerRunner) 完成一个分布式爬虫项目,并将数据存入数据库 二、学习内容 阅读全文
posted @ 2026-02-21 20:50 头发少的文不识 阅读(3) 评论(0) 推荐(0)
摘要: 一、实践练习 练习1:使用Scrapy‑Redis分布式爬取豆瓣电影 目标:将之前的豆瓣电影爬虫改造为分布式版本,多台机器协同抓取。 安装scrapy‑redis,修改settings.py: python SCHEDULER = "scrapy_redis.scheduler.Scheduler" 阅读全文
posted @ 2026-02-18 01:06 头发少的文不识 阅读(3) 评论(0) 推荐(0)
摘要: 一、学习目标 理解分布式爬虫的原理与优势 掌握Scrapy‑Redis实现分布式爬虫的方法 学习数据存储方案:MySQL与MongoDB 掌握增量爬取与去重策略 能够将Scrapy爬虫集成到其他Python程序中(CrawlerRunner) 完成一个分布式爬虫项目,并将数据存入数据库 二、学习内容 阅读全文
posted @ 2026-02-18 01:06 头发少的文不识 阅读(1) 评论(0) 推荐(0)
摘要: 一、实践练习 练习1:使用Selenium模拟登录豆瓣并获取个人主页信息 python from selenium import webdriver from selenium.webdriver.common.by import By import time def douban_login(us 阅读全文
posted @ 2026-02-17 23:59 头发少的文不识 阅读(3) 评论(0) 推荐(0)