随笔分类 - 爬虫
摘要:今日头条抓取页面: 分析街拍页面的 ajax 请求: 通过在 XHR 中查看内容,获取 url 链接,params 参数信息,将两者进行拼接后取得完整 url 地址。data 中的 article_url 为各详情页的链接地址。 代码显示: 1 # 获取街拍页面; 2 def one_page_in
阅读全文
摘要:使用 进程池Pool 提高爬取数据的速度。 python限定了多进程要调用的函数不能是类方法,需把多进程调用的函数放到类外面,或者变成静态函数。 但静态函数不能被该类的方法调用( self.ProcessWorker 形式),需在外部调用:如 mc = MyClass(), mc.ProcessWo
阅读全文


浙公网安备 33010602011771号