摘要: 一、图形验证码的识别 先将验证码的图片保存到本。 打开开发者工具,找到验证码元素。验证码元素是一张图片,src 属性是 CheckCode.aspx。打开链接 http://my.cnki.net/elibregister/CheckCode.aspx,保存并命名为 code.jpg。 打开开发者工 阅读全文
posted @ 2019-01-18 11:46 独行头狼 阅读(509) 评论(0) 推荐(0) 编辑
摘要: 一、Splash 的使用 Splash 是一个JavaScript 渲染服务,带有 HTTP API的轻量级浏览器,同时对接了 Python 中的 Twisted 和 QT 库。利用它,同样可以实现动态渲染页面的抓取。 通过 Splash 提供的 Web 页面来测试其渲染过程。例:在本机 8050 阅读全文
posted @ 2019-01-04 10:12 独行头狼 阅读(1253) 评论(0) 推荐(0) 编辑
摘要: 利用Selenium 可以驱动浏览器执行特定的动作,如点击、下拉等操作, 同时还可以获取浏览器当前呈现的页面的源代码 ,做到可见即可爬。 示例: from selenium import webdriver from selenium.webdriver.common.by import By fr 阅读全文
posted @ 2018-12-29 14:25 独行头狼 阅读(331) 评论(0) 推荐(0) 编辑
摘要: Ajax简介: Ajax ,全称为 Asynchronous JavaScript and XML ,即异步的 JavaScript XML 它是利用 JavaScript 在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术。页面在后台与服务器进行了数据交互,获取到数据之 阅读全文
posted @ 2018-12-26 14:38 独行头狼 阅读(193) 评论(0) 推荐(0) 编辑
摘要: 关系型数据库是基于关系模型的数据库,而关系模型是通过二维表来保存的,所以它的存储方式 就是行列组成的表,每一列是一个字段, 每一行是一条记录。 表可以看作某个实体的集合,而实体之 间存在联系,这就需要表与表之间的关联关系来体现, 如主键外键的关联关系。 多个表组成一个数据 库,也就是关系型数据库。关 阅读全文
posted @ 2018-12-21 09:37 独行头狼 阅读(316) 评论(0) 推荐(0) 编辑
摘要: 保存的形式可以多种多样,最简单的形式是 接保存为文本文件,如 TXT、JSON、CSV等。还可以保存到数据库中,如关系型数据库 MySQL ,非关系型数据库 MongoDB、Redis等。 一、TXT文本存储 可以用 requests 将网页源代码获取下来,然后使用 pyquery 解析库解析,接下 阅读全文
posted @ 2018-12-17 09:53 独行头狼 阅读(309) 评论(0) 推荐(0) 编辑
摘要: 与Beautifu Soup 一样,初始化 pyquery 的时候,也需要传入 HTML 文本来初始化一个 PyQuery 对象。初始化方式有多种,如:直接传入字符串,传入 URL ,传人文件名等。 字符串初始化 html = ''' <div> <ul> <li class="item-0">fi 阅读全文
posted @ 2018-12-13 15:46 独行头狼 阅读(254) 评论(0) 推荐(0) 编辑
摘要: Beautiful Soup是 Python 的一个 HTML 或 XML 的解析库,库借助网页的结构和属性等特性来解析网页 Beautiful Soup在解析时依赖解析器,除了支持 Python 标准库中的 HTML 解析器外,还支持一些第三方解析器(比如 lxml )。 以上对比,lxml 解析 阅读全文
posted @ 2018-12-10 18:29 独行头狼 阅读(300) 评论(0) 推荐(0) 编辑
摘要: 对于网页的节点来说,它可以定义 id 、class 或其他属性。 而且节点之间还有层次关系,在网页 中可以通过XPath 或 css 选择器来定位一个或多个节点。所以在页面解析时,利用 XPath 或 css 选择器来提取某个节点,然后再调用相应方法获取它的正文内容或者属性,也可以提取我们想要的任意 阅读全文
posted @ 2018-12-06 10:58 独行头狼 阅读(266) 评论(0) 推荐(0) 编辑
摘要: Spider简介: 可以分成简单的几步:抓取页面,分析页面和存储数据(主要用到的库有requests,Selenium,aiohttp) 解决JavaScrip渲染问题 分析Ajax请求 Selenium/ WebDriver Splash PyV8、Ghost.py 解析方式 直接处理 Json解 阅读全文
posted @ 2018-12-04 17:29 独行头狼 阅读(682) 评论(0) 推荐(0) 编辑