会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
wenbushi-dream
博客园
首页
新随笔
联系
订阅
管理
2026年3月10日
12
摘要: 2
阅读全文
posted @ 2026-03-10 23:15 头发少的文不识
阅读(1)
评论(0)
推荐(0)
2026年2月21日
寒假学习笔记2.15
摘要: 一、学习目标 掌握使用Docker容器化爬虫项目及其依赖环境 学习使用Scrapyd部署和管理Scrapy爬虫 了解Gerapy作为Scrapyd的图形化管理工具 能够配置定时任务(cron / APScheduler)自动运行爬虫 熟悉爬虫日志管理与简单监控 构建一个可部署、可调度、可监控的爬虫系
阅读全文
posted @ 2026-02-21 20:51 头发少的文不识
阅读(3)
评论(0)
推荐(0)
寒假学习笔记2.14
摘要: 一、实践练习 练习1:使用Scrapy‑Redis分布式爬取豆瓣电影 目标:将之前的豆瓣电影爬虫改造为分布式版本,多台机器协同抓取。 安装scrapy‑redis,修改settings.py: python SCHEDULER = "scrapy_redis.scheduler.Scheduler"
阅读全文
posted @ 2026-02-21 20:51 头发少的文不识
阅读(2)
评论(0)
推荐(0)
寒假学习笔记2.13
摘要: 一、学习目标 理解分布式爬虫的原理与优势 掌握Scrapy‑Redis实现分布式爬虫的方法 学习数据存储方案:MySQL与MongoDB 掌握增量爬取与去重策略 能够将Scrapy爬虫集成到其他Python程序中(CrawlerRunner) 完成一个分布式爬虫项目,并将数据存入数据库 二、学习内容
阅读全文
posted @ 2026-02-21 20:50 头发少的文不识
阅读(3)
评论(0)
推荐(0)
2026年2月18日
寒假学习笔记2.12
摘要: 一、实践练习 练习1:使用Scrapy‑Redis分布式爬取豆瓣电影 目标:将之前的豆瓣电影爬虫改造为分布式版本,多台机器协同抓取。 安装scrapy‑redis,修改settings.py: python SCHEDULER = "scrapy_redis.scheduler.Scheduler"
阅读全文
posted @ 2026-02-18 01:06 头发少的文不识
阅读(3)
评论(0)
推荐(0)
寒假学习笔记2.11
摘要: 一、学习目标 理解分布式爬虫的原理与优势 掌握Scrapy‑Redis实现分布式爬虫的方法 学习数据存储方案:MySQL与MongoDB 掌握增量爬取与去重策略 能够将Scrapy爬虫集成到其他Python程序中(CrawlerRunner) 完成一个分布式爬虫项目,并将数据存入数据库 二、学习内容
阅读全文
posted @ 2026-02-18 01:06 头发少的文不识
阅读(1)
评论(0)
推荐(0)
2026年2月17日
寒假学习笔记2.10
摘要: 一、实践练习 练习1:使用Selenium模拟登录豆瓣并获取个人主页信息 python from selenium import webdriver from selenium.webdriver.common.by import By import time def douban_login(us
阅读全文
posted @ 2026-02-17 23:59 头发少的文不识
阅读(2)
评论(0)
推荐(0)
寒假学习笔记2.9
摘要: 一、学习目标 掌握Selenium库处理JavaScript动态加载页面的方法 学习常见反爬虫策略及其应对技巧(User‑Agent轮换、代理IP、请求延迟) 了解浏览器自动化操作(点击、输入、滚动等) 初步认识Scrapy框架的架构与基本使用 能够编写中等复杂度的爬虫项目,处理登录、分页等场景 二
阅读全文
posted @ 2026-02-17 23:58 头发少的文不识
阅读(5)
评论(0)
推荐(0)
寒假学习笔记2.8
摘要: 一、实践练习:电影数据分析完整项目 项目目标 加载豆瓣电影Top250数据(昨天爬取的) 数据清洗与特征工程 多维度统计分析 可视化展示分析结果 生成分析报告 python import pandas as pd import numpy as np import matplotlib.pyplot
阅读全文
posted @ 2026-02-17 23:36 头发少的文不识
阅读(2)
评论(0)
推荐(0)
寒假学习笔记2.7
摘要: 一、学习目标 深入掌握Pandas的高级数据处理功能(分组聚合、透视表、时间序列) 学习Seaborn统计可视化库的基本用法 掌握数据清洗与特征工程常用技巧 能够完成从数据采集到可视化分析的全流程 理解数据分析的基本思维框架 二、学习内容 Pandas高级数据操作 1.1 Series与DataFr
阅读全文
posted @ 2026-02-17 23:36 头发少的文不识
阅读(4)
评论(0)
推荐(0)
下一页
公告