python爬虫--01入门篇

1 爬虫

爬虫需要做2件事：

1、模拟计算机对服务器发起Request请求；

2、接收服务器端的Response内容并解析、提取所需的信息；

分为多页面爬虫流程、跨页面爬虫流程；

流程如下：

(1) 手动翻页并观察各网页的URL构成特点，构造出所有页面的URL存入列表中；

(2) 根据URL列表依次循环取出URL；

(3) 定义爬虫函数；

(4) 循环调用爬虫函数、存储数据；

(5) 循环完毕，结束爬虫程序；

流程如下：

(1) 定义爬取函数爬取列表页的所有专题的URL；

(2) 将专题URL存入列表中【种子URL】;

(3) 定义爬取详细页数据函数；

(4） 进入专题详细页面爬取详细页数据；

(5) 存储数据，循环完毕，结束爬虫程序；

请大家尊重原创，如要转载，请注明出处：转载自：https://www.cnblogs.com/diandian520

谢谢！！

posted @ 2021-01-14 15:48 点点520 阅读(96) 评论(0) 收藏举报

刷新页面返回顶部