摘要: 使用 Pyppeteer 针对之前的 Selenium 案例做一次改写,来体会一下二者的不同之处,同时也加强一下对 Pyppeteer 的理解和掌握情况。 还是 Selenium 的那个案例,地址为:https://dynamic2.scrape.cuiqingcai.com/ 爬取目标和那一节也是 阅读全文
posted @ 2022-11-16 18:22 小符玩代码 阅读(284) 评论(0) 推荐(0)
摘要: 实例引入 比如在这里我们看这么一个示例网站:https://static4.scrape.cuiqingcai.com/, 这个网站在内部实现返回响应的逻辑的时候特意加了 5 秒的延迟,也就是说如果我们用 requests 来爬取其中某个页面的话,至少需要 5 秒才能得到响应。 另外这个网站的逻辑结 阅读全文
posted @ 2022-11-16 18:22 小符玩代码 阅读(79) 评论(0) 推荐(0)
摘要: 数据的编码与加密 ASCII编码 ASCII ((American Standard Code for Information Interchange): 美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言。它是最通用的信息交换标准,并等同于国际标准ISO/I 阅读全文
posted @ 2022-11-16 18:22 小符玩代码 阅读(149) 评论(0) 推荐(0)
摘要: 常见加密算法: 对称加密(加密解密密钥相同):DES、3DES、AES、RC4、Rabbit 非对称加密(区分公钥和私钥):RSA、DSA、ECC 消息摘要算法/签名算法:MD5、SHA、HMAC、PBKDF2 常见编码算法:Base64 JavaScript 加密解密模块 Crypto-JS Cr 阅读全文
posted @ 2022-11-16 18:22 小符玩代码 阅读(175) 评论(0) 推荐(0)
摘要: 来源:CSDN 参考即可 上个课时我们讲解了 Ajax 的分析方法,利用 Ajax 接口我们可以非常方便地完成数据的爬取。只要我们能找到 Ajax 接口的规律,就可以通过某些参数构造出对应的的请求,数据自然就能被轻松爬取到。 但是,在很多情况下,Ajax 请求的接口通常会包含加密的参数,如 toke 阅读全文
posted @ 2022-11-16 18:22 小符玩代码 阅读(81) 评论(0) 推荐(0)
摘要: 页面解析之数据提取 一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值,内容一般分为两部分,非结构化的文本,或结构化的文本。 关于结构化的数据 JSON、XML 关于非结构化的数据 关于HTML文本(包含JavaScript代码) HTML文本(包含JavaScript代码) 阅读全文
posted @ 2022-11-16 18:22 小符玩代码 阅读(79) 评论(0) 推荐(0)
摘要: HTTP协议介绍 设计HTTP(HyperText Transfer Protocol)是为了提供一种发布和接收HTML(HyperText Markup Language)页面的方法。 Http组成 由两部分组成:请求与响应 客户端请求消息 客户端发送一个HTTP请求到服务器的请求消息包括以下格式 阅读全文
posted @ 2022-11-16 18:22 小符玩代码 阅读(234) 评论(0) 推荐(0)
摘要: 爬虫基本原理 爬虫是 模拟用户在浏览器或者某个应用上的操作,把操作的过程、实现自动化的程序 当我们在浏览器中输入一个url后回车,后台会发生什么?比如说你输入http://www.sina.com.cn/ 简单来说这段过程发生了以下四个步骤: 查找域名对应的IP地址。 向IP对应的服务器发送请求。 阅读全文
posted @ 2022-11-16 18:22 小符玩代码 阅读(470) 评论(0) 推荐(0)
摘要: Redis安装说明 大多数企业都是基于Linux服务器来部署项目,而且Redis官方也没有提供Windows版本的安装包。因此课程中我们会基于Linux系统来安装Redis. 此处选择的Linux版本为CentOS 7. Redis的官方网站地址:https://redis.io/ 1.单机安装Re 阅读全文
posted @ 2022-11-16 18:17 小符玩代码 阅读(31) 评论(0) 推荐(0)