随笔分类 -  爬虫

摘要:今日头条抓取页面: 分析街拍页面的 ajax 请求: 通过在 XHR 中查看内容,获取 url 链接,params 参数信息,将两者进行拼接后取得完整 url 地址。data 中的 article_url 为各详情页的链接地址。 代码显示: 1 # 获取街拍页面; 2 def one_page_in 阅读全文
posted @ 2019-09-29 17:27 F·灬小人物 阅读(412) 评论(0) 推荐(0)
摘要:使用 进程池Pool 提高爬取数据的速度。 python限定了多进程要调用的函数不能是类方法,需把多进程调用的函数放到类外面,或者变成静态函数。 但静态函数不能被该类的方法调用( self.ProcessWorker 形式),需在外部调用:如 mc = MyClass(), mc.ProcessWo 阅读全文
posted @ 2019-09-27 17:20 F·灬小人物 阅读(248) 评论(0) 推荐(0)