2018 年 5月 9 日随笔档案 - Albert-w

2018年5月9日

摘要： ###页面抓取### 1、urllib3 是一个功能强大且好用的HTTP客户端，弥补了Python标准库中的不足安装： pip install urllib3 使用： import urllib3 http = urllib3.PoolManager() response = http.request('GET', 'http://news.qq.com') print... 阅读全文

posted @ 2018-05-09 11:26 Albert-w 阅读(128) 评论(0) 推荐(0)

爬虫-day01-基础知识

摘要： '''爬虫的构成下载器：抓取页面 urllib equests selenium + webdriver解析器：解释并提取页面元素 BeautifulSoup4 PyQuery Xpath Regular Expression调度器：协调完成全部抓取任务进程线程协程分布式抓取处理器：数阅读全文

posted @ 2018-05-09 11:11 Albert-w 阅读(145) 评论(0) 推荐(0)

Albert-w

公告