摘要: xpath解析 最常用且最便捷高效的一种解析方式。通用性。 xpath解析原理: - 1.实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中。 - 2.调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。 环境的安装: pip install l 阅读全文
posted @ 2020-11-18 14:50 朱_煜 阅读(180) 评论(0) 推荐(0) 编辑
摘要: requests模块 urllib模块 requests模块 概念:python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。 作用:模拟浏览器发请求。 如何使用:(requests模块的编码流程) 指定url UA伪装 请求参数的处理 发起请求 获取响应数据 持久化存储 安装 阅读全文
posted @ 2020-11-18 14:46 朱_煜 阅读(134) 评论(0) 推荐(0) 编辑
摘要: 高性能异步爬虫 目的:在爬虫中使用异步实现高性能的数据爬取操作。 异步爬虫的方式 多线程,多进程(不建议): 好处:可以为相关阻塞的操作单独开启线程或者进程,阻塞操作就可以异步执行。 弊端:无法无限制的开启多线程或者多进程。 线程池、进程池(适当的使用): 好处:我们可以降低系统对进程或者线程创建和 阅读全文
posted @ 2020-11-18 14:10 朱_煜 阅读(87) 评论(0) 推荐(0) 编辑
摘要: slenium模块的基本使用 问题:selenium模块和爬虫之间具有怎样的关联? 便捷的获取网站中动态加载的数据。 便捷实现模拟登录。 什么是selenium模块? 基于浏览器自动化的一个模块。 selenium使用流程 环境安装:pip install selenium 下载一个浏览器的驱动程序 阅读全文
posted @ 2020-11-18 13:53 朱_煜 阅读(324) 评论(0) 推荐(0) 编辑