文章分类 - 爬虫
摘要:7. lxml模块的安装与使用示例 lxml模块是一个第三方模块,安装之后使用 7.1 lxml模块的安装 对发送请求获取的xml或html形式的响应内容进行提取 pip/pip3 install lxml 知识点:了解 lxml模块的安装 7.2 爬虫对html提取的内容 提取标签中的文本内容 提
阅读全文
摘要:谷歌浏览器xpath helper插件的安装和使用 2.1 谷歌浏览器xpath helper插件的作用 在谷歌浏览器中对当前页面测试xpath语法规则 2.2 谷歌浏览器xpath helper插件的安装和使用 我们以windos为例进行xpath helper的安装 2.2.1 xpath he
阅读全文
摘要:4.数据提取-lxml模块 4.1. 了解 lxml模块和xpath语法 对html或xml形式的文本提取特定的内容,就需要我们掌握lxml模块的使用和xpath语法。 lxml模块可以利用XPath规则语法,来快速的定位HTML\XML 文档中特定元素以及获取节点信息(文本内容、属性值) XPat
阅读全文
摘要:3.数据提取-jsonpath模块 知识点 了解 jsonpath模块的使用场景 掌握 jsonpath模块的使用 3.1. jsonpath模块的使用场景 如果有一个多层嵌套的复杂字典,想要根据key和下标来批量提取value,这是比较困难的。jsonpath模块就能解决这个痛点,接下来我们就来学
阅读全文
摘要:1. 响应内容的分类 在发送请求获取响应之后,可能存在多种不同类型的响应内容;而且很多时候,我们只需要响应内容中的一部分数据 结构化的响应内容 json字符串 可以使用re、json等模块来提取特定数据 json字符串的例子如下图 xml字符串 可以使用re、lxml等模块来提取特定数据 xml字符
阅读全文
摘要:requests模块 知识点: 掌握 headers参数的使用 掌握 发送带参数的请求 掌握 headers中携带cookie 掌握 cookies参数的使用 掌握 cookieJar的转换方法 掌握 超时参数timeout的使用 掌握 代理ip参数proxies的使用 掌握 使用verify参数忽
阅读全文
摘要:一、爬虫的概念 模拟浏览器,发送请求,获取响应 网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端(主要指浏览器)发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。 原则上,只要是客户端(浏览器)能做的事情,爬虫都能够做 爬虫也只能获取客户端(浏览器)所展示出来的数据
阅读全文

浙公网安备 33010602011771号