09 2019 档案
摘要:今日头条抓取页面: 分析街拍页面的 ajax 请求: 通过在 XHR 中查看内容,获取 url 链接,params 参数信息,将两者进行拼接后取得完整 url 地址。data 中的 article_url 为各详情页的链接地址。 代码显示: 1 # 获取街拍页面; 2 def one_page_in
阅读全文
摘要:使用 进程池Pool 提高爬取数据的速度。 python限定了多进程要调用的函数不能是类方法,需把多进程调用的函数放到类外面,或者变成静态函数。 但静态函数不能被该类的方法调用( self.ProcessWorker 形式),需在外部调用:如 mc = MyClass(), mc.ProcessWo
阅读全文
摘要:爬虫:请求网站并爬取数据的自动化程序。 基本流程: Request: Response: 解析方式: Urllib:python 内置的 HTTP 请求库 urllib.request:请求模块; urllib.error:异常处理模块; urllib.parse:url 解析模块; urllib.
阅读全文


浙公网安备 33010602011771号