摘要: xpath解析 最常用且最便捷高效的一种解析方式。通用性。 xpath解析原理: - 1.实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中。 - 2.调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。 环境的安装: pip install l 阅读全文
posted @ 2020-11-18 14:50 朱_煜 阅读(179) 评论(0) 推荐(0) 编辑
摘要: requests模块 urllib模块 requests模块 概念:python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。 作用:模拟浏览器发请求。 如何使用:(requests模块的编码流程) 指定url UA伪装 请求参数的处理 发起请求 获取响应数据 持久化存储 安装 阅读全文
posted @ 2020-11-18 14:46 朱_煜 阅读(134) 评论(0) 推荐(0) 编辑
摘要: 高性能异步爬虫 目的:在爬虫中使用异步实现高性能的数据爬取操作。 异步爬虫的方式 多线程,多进程(不建议): 好处:可以为相关阻塞的操作单独开启线程或者进程,阻塞操作就可以异步执行。 弊端:无法无限制的开启多线程或者多进程。 线程池、进程池(适当的使用): 好处:我们可以降低系统对进程或者线程创建和 阅读全文
posted @ 2020-11-18 14:10 朱_煜 阅读(87) 评论(0) 推荐(0) 编辑
摘要: slenium模块的基本使用 问题:selenium模块和爬虫之间具有怎样的关联? 便捷的获取网站中动态加载的数据。 便捷实现模拟登录。 什么是selenium模块? 基于浏览器自动化的一个模块。 selenium使用流程 环境安装:pip install selenium 下载一个浏览器的驱动程序 阅读全文
posted @ 2020-11-18 13:53 朱_煜 阅读(322) 评论(0) 推荐(0) 编辑
摘要: JVM 摘自原文:https://blog.csdn.net/qq_41701956/article/details/81664921 阅读全文
posted @ 2020-10-18 15:58 朱_煜 阅读(86) 评论(0) 推荐(0) 编辑
摘要: 面向对象 摘自原文:https://blog.csdn.net/qq_34569497/article/details/81910426 性质 面向对象是相对面向过程而言 面向对象和面向过程都是一种思想 面向过程强调的是功能、行为 面向对象:将功能封装进对象,强调具备了功能的对象 面向对象是基于面向 阅读全文
posted @ 2020-10-18 14:46 朱_煜 阅读(109) 评论(0) 推荐(0) 编辑
摘要: 基本介绍 概念 链表是一种物理存储单元上非连续、非顺序的存储结构,数据元素的逻辑顺序是通过链表中的指针链接次序实现的。 特点 链表是以节点的方式来存储,是链式存储。 每个节点包含 data 域, next 域:指向下一个节点。 如图:发现链表的各个节点不一定是连续存储。 链表分带头节点的链表和没有头 阅读全文
posted @ 2020-10-14 14:47 朱_煜 阅读(122) 评论(0) 推荐(0) 编辑
摘要: 基本介绍 队列是一个有序列表,可以用数组或是链表实现。 遵循先进先出的原则。 数组模拟队列 当我们将数据存入队列时称为”addQueue”,addQueue 的处理需要有两个步骤: 将尾指针往后移:rear+1 , 当front == rear 【空】 若尾指针 rear 小于队列的最大下标 max 阅读全文
posted @ 2020-10-11 22:58 朱_煜 阅读(126) 评论(0) 推荐(0) 编辑
摘要: 基本介绍 概念 当一个数组中大部分元素为0,或者为同一个值的数组时,可以使用稀疏数组来保存该数组。 处理方法 记录数组一共有几行几列,有多少个不同的值。 把具有不同值的元素的行列及值记录在一个小规模的数组中,从而缩小程序的规模。 应用实例 使用稀疏数组,来保存类似前面的二维数组(数组、棋盘等)。 把 阅读全文
posted @ 2020-10-10 23:00 朱_煜 阅读(103) 评论(0) 推荐(0) 编辑
摘要: 线性结构 线性结构作为最常用的数据结构,其特点是数据元素之间存在一对一的线性关系。 常见的线性结构包括:数组、队列、链表和栈。 线性结构有两种不同的存储结构,即顺序存储结构和连式存储结构。 顺序存储结构 顺序存储的线性表称为顺序表,顺序表中的存储元素是连续的。 链式存储结构 式存储的线性表称为链表, 阅读全文
posted @ 2020-10-10 18:52 朱_煜 阅读(617) 评论(0) 推荐(0) 编辑