Albert-w

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: :: 管理 ::

2018年5月9日

摘要: ###页面抓取### 1、urllib3 是一个功能强大且好用的HTTP客户端,弥补了Python标准库中的不足 安装: pip install urllib3 使用: import urllib3 http = urllib3.PoolManager() response = http.request('GET', 'http://news.qq.com') print... 阅读全文
posted @ 2018-05-09 11:26 Albert-w 阅读(128) 评论(0) 推荐(0)

摘要: '''爬虫的构成下载器: 抓取页面 urllib equests selenium + webdriver解析器: 解释并提取页面元素 BeautifulSoup4 PyQuery Xpath Regular Expression调度器:协调完成全部抓取任务 进程 线程 协程 分布式抓取处理器: 数 阅读全文
posted @ 2018-05-09 11:11 Albert-w 阅读(145) 评论(0) 推荐(0)