摘要: 一、学习目标 掌握使用Docker容器化爬虫项目及其依赖环境 学习使用Scrapyd部署和管理Scrapy爬虫 了解Gerapy作为Scrapyd的图形化管理工具 能够配置定时任务(cron / APScheduler)自动运行爬虫 熟悉爬虫日志管理与简单监控 构建一个可部署、可调度、可监控的爬虫系 阅读全文
posted @ 2026-02-21 20:51 头发少的文不识 阅读(3) 评论(0) 推荐(0)
摘要: 一、实践练习 练习1:使用Scrapy‑Redis分布式爬取豆瓣电影 目标:将之前的豆瓣电影爬虫改造为分布式版本,多台机器协同抓取。 安装scrapy‑redis,修改settings.py: python SCHEDULER = "scrapy_redis.scheduler.Scheduler" 阅读全文
posted @ 2026-02-21 20:51 头发少的文不识 阅读(2) 评论(0) 推荐(0)
摘要: 一、学习目标 理解分布式爬虫的原理与优势 掌握Scrapy‑Redis实现分布式爬虫的方法 学习数据存储方案:MySQL与MongoDB 掌握增量爬取与去重策略 能够将Scrapy爬虫集成到其他Python程序中(CrawlerRunner) 完成一个分布式爬虫项目,并将数据存入数据库 二、学习内容 阅读全文
posted @ 2026-02-21 20:50 头发少的文不识 阅读(3) 评论(0) 推荐(0)
摘要: 一、实践练习 练习1:使用Scrapy‑Redis分布式爬取豆瓣电影 目标:将之前的豆瓣电影爬虫改造为分布式版本,多台机器协同抓取。 安装scrapy‑redis,修改settings.py: python SCHEDULER = "scrapy_redis.scheduler.Scheduler" 阅读全文
posted @ 2026-02-18 01:06 头发少的文不识 阅读(2) 评论(0) 推荐(0)
摘要: 一、学习目标 理解分布式爬虫的原理与优势 掌握Scrapy‑Redis实现分布式爬虫的方法 学习数据存储方案:MySQL与MongoDB 掌握增量爬取与去重策略 能够将Scrapy爬虫集成到其他Python程序中(CrawlerRunner) 完成一个分布式爬虫项目,并将数据存入数据库 二、学习内容 阅读全文
posted @ 2026-02-18 01:06 头发少的文不识 阅读(1) 评论(0) 推荐(0)
摘要: 一、实践练习 练习1:使用Selenium模拟登录豆瓣并获取个人主页信息 python from selenium import webdriver from selenium.webdriver.common.by import By import time def douban_login(us 阅读全文
posted @ 2026-02-17 23:59 头发少的文不识 阅读(1) 评论(0) 推荐(0)
摘要: 一、学习目标 掌握Selenium库处理JavaScript动态加载页面的方法 学习常见反爬虫策略及其应对技巧(User‑Agent轮换、代理IP、请求延迟) 了解浏览器自动化操作(点击、输入、滚动等) 初步认识Scrapy框架的架构与基本使用 能够编写中等复杂度的爬虫项目,处理登录、分页等场景 二 阅读全文
posted @ 2026-02-17 23:58 头发少的文不识 阅读(4) 评论(0) 推荐(0)
摘要: 一、实践练习:电影数据分析完整项目 项目目标 加载豆瓣电影Top250数据(昨天爬取的) 数据清洗与特征工程 多维度统计分析 可视化展示分析结果 生成分析报告 python import pandas as pd import numpy as np import matplotlib.pyplot 阅读全文
posted @ 2026-02-17 23:36 头发少的文不识 阅读(2) 评论(0) 推荐(0)
摘要: 一、学习目标 深入掌握Pandas的高级数据处理功能(分组聚合、透视表、时间序列) 学习Seaborn统计可视化库的基本用法 掌握数据清洗与特征工程常用技巧 能够完成从数据采集到可视化分析的全流程 理解数据分析的基本思维框架 二、学习内容 Pandas高级数据操作 1.1 Series与DataFr 阅读全文
posted @ 2026-02-17 23:36 头发少的文不识 阅读(3) 评论(0) 推荐(0)
摘要: 一、实践练习:综合实战——豆瓣电影Top250数据采集与分析 项目目标 爬取豆瓣电影Top250的电影名称、年份、评分和评价人数 对数据进行清洗和统计分析 可视化展示分析结果 步骤1:数据采集 python import requests from bs4 import BeautifulSoup 阅读全文
posted @ 2026-02-17 23:22 头发少的文不识 阅读(1) 评论(0) 推荐(0)