2019 年 9月随笔档案 - F·灬小人物

分析 ajax 请求并抓取 “今日头条的街拍图”

摘要：今日头条抓取页面：分析街拍页面的 ajax 请求：通过在 XHR 中查看内容，获取 url 链接，params 参数信息，将两者进行拼接后取得完整 url 地址。data 中的 article_url 为各详情页的链接地址。代码显示： 1 # 获取街拍页面； 2 def one_page_in 阅读全文

posted @ 2019-09-29 17:27 F·灬小人物阅读(415) 评论(0) 推荐(0)

requests + 正则表达式获取 ‘猫眼电影top100’。

摘要：使用进程池Pool 提高爬取数据的速度。 python限定了多进程要调用的函数不能是类方法，需把多进程调用的函数放到类外面，或者变成静态函数。但静态函数不能被该类的方法调用（ self.ProcessWorker 形式），需在外部调用：如 mc = MyClass(), mc.ProcessWo 阅读全文

posted @ 2019-09-27 17:20 F·灬小人物阅读(249) 评论(0) 推荐(0)

爬虫基础（暂缓更新）

摘要：爬虫：请求网站并爬取数据的自动化程序。基本流程： Request： Response：解析方式： Urllib：python 内置的 HTTP 请求库 urllib.request：请求模块； urllib.error：异常处理模块； urllib.parse：url 解析模块； urllib. 阅读全文

posted @ 2019-09-26 09:43 F·灬小人物阅读(135) 评论(0) 推荐(0)

F·灬疯子

09 2019 档案

公告