摘要:
requests模块 什么是requests模块 requests模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求。功能强大,用法简洁高效。在爬虫领域中占据着半壁江山的地位。 为什么要使用requests模块 因为在使用urllib模块的时候,会有诸多不便之处,总结如 阅读全文
posted @ 2020-02-07 16:44
杨灏
阅读(20)
评论(0)
推荐(0)
摘要:
数据解析三种方式 引言:回顾requests实现数据爬取的流程 指定url 基于requests模块发起请求 获取响应对象中的数据 进行持久化存储 其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据解析。因为大多数情况下的需求,我们都会指定去使用聚焦爬虫,也就是爬取页面中指 阅读全文
posted @ 2020-02-07 16:02
杨灏
阅读(24)
评论(0)
推荐(0)
摘要:
什么是selenium? 是Python的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作。 环境搭建 安装selenum:pip install selenium 获取某一款浏览器的驱动程序(以Firefox浏览器为例) #!/usr/bin/env python # -* 阅读全文
posted @ 2020-02-07 14:55
杨灏
阅读(18)
评论(0)
推荐(0)
摘要:
错误再现 原因:firefox浏览器版本和浏览器驱动版本不匹配 解决办法:卸载高版本浏览器,安装低版本浏览器 阅读全文
posted @ 2020-02-07 14:08
杨灏
阅读(433)
评论(0)
推荐(0)
摘要:
安装三大浏览器驱动driver 1.chromedriver 下载地址:http://chromedriver.storage.googleapis.com/index.html 2.Firefox的驱动geckodriver 下载地址:https://github.com/mozilla/geck 阅读全文
posted @ 2020-02-07 14:00
杨灏
阅读(359)
评论(0)
推荐(0)

浙公网安备 33010602011771号