随笔分类 -  数据采集技术

摘要:Pandas 的使用 介绍:pandas 是 python 语言的的一个关于数据分析的扩展库;pandas 可以对各种数据进行操作, pandas 依赖于 numpy ,在常规的数据分析中,pandas 的使用范围是最宽广的; 参考文章:https://www.runoob.com/pandas/p 阅读全文
posted @ 2023-04-28 00:06 紫青宝剑 阅读(353) 评论(0) 推荐(0)
摘要:Js-Hook 参考文章:https://blog.csdn.net/Ks_meng/article/details/127336084 参考文章:https://blog.csdn.net/qq_40558166/article/details/123525365 介绍:Hook 是一种常用的钩子 阅读全文
posted @ 2023-02-07 20:30 紫青宝剑 阅读(1753) 评论(0) 推荐(0)
摘要:对称加密 概述:对称加密就是加密和解密使用同一个密钥;就好比. 我要给你邮寄一个箱子. 上面怼上锁. 提前我把钥匙给了你一把, 我一把. 那么我在邮寄之前就可以把箱子锁上. 然后快递到你那里. 你用相同的钥匙就可以打开这个箱子. 条件:加密和解密使用相同的密钥,那么加密和解密的两端就必须拥有密钥才可 阅读全文
posted @ 2022-12-08 23:46 紫青宝剑 阅读(197) 评论(0) 推荐(0)
摘要:Rsa 加密的使用 概述:AES 和 DES 都是对称加密算法,加密和解密的时候都是相同的密钥;非对称加密算法加密和解密的密钥是不相同的,分为公钥和私钥;最常见的非对称加密算法是RSA加密算法! 公钥: 公开的密钥,对数据进行加密 私钥: 私密的密钥,对数据进行解密 非对称加密算法在使用的时候,通常 阅读全文
posted @ 2022-12-03 22:15 紫青宝剑 阅读(1348) 评论(0) 推荐(0)
摘要:对称加密 概述:对称加密就是加密和解密使用同一个密钥;就好比. 我要给你邮寄一个箱子. 上面怼上锁. 提前我把钥匙给了你一把, 我一把. 那么我在邮寄之前就可以把箱子锁上. 然后快递到你那里. 你用相同的钥匙就可以打开这个箱子. 条件:加密和解密使用相同的密钥,那么加密和解密的两端就必须拥有密钥才可 阅读全文
posted @ 2022-11-30 21:13 紫青宝剑 阅读(2335) 评论(0) 推荐(0)
摘要:高性能异步爬虫 说明:本文章只用于学习交流,严禁用于其他途径,如有不妥,可立即下架。 目的:在爬虫中使用异步实现高性能的数据爬取操作。异步发送请求,网络请求属于IO操作,一般使用线程异步或者协程异步。 参考文章:https://www.cnblogs.com/Blogwj123/p/15893616 阅读全文
posted @ 2022-07-24 14:31 紫青宝剑 阅读(134) 评论(0) 推荐(0)
摘要:模拟登录 概述:通过requests模块模拟使用浏览器登录网站的行为。 1.模拟登录原理 概述:模拟登录,一般是网站在浏览器中使用POST请求向后端发送数据请求的过程,响应后的数据一般会设置相关的Session与Cookie标识用户的登录标识。对于前后端分离的项目中,也有可能是加密密钥的token, 阅读全文
posted @ 2022-07-04 15:15 紫青宝剑 阅读(336) 评论(0) 推荐(0)
摘要:验证码的识别 验证码和爬虫之间的爱恨情仇? 反爬机制:验证码.识别验证码图片中的数据,用于模拟登陆操作。 识别验证码的操作: 人工肉眼识别。(不推荐) 第三方自动识别(推荐) 可以使用机器学习算法或者gitee上的一些开源项目进行识别,但是效果比较单一。 1.云打码的使用 说明:云打码平台多种多样, 阅读全文
posted @ 2022-07-01 09:19 紫青宝剑 阅读(1126) 评论(0) 推荐(0)
摘要:requests 模块的使用与数据解析的介绍 提前补充:Python 中常用的发送网络信息就是requests和urllib模块。 1.介绍 requests模块:python中一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。 作用:模拟浏览器发请求。 如何使用:(requests模块的编 阅读全文
posted @ 2022-07-01 09:17 紫青宝剑 阅读(410) 评论(0) 推荐(0)
摘要:Python 数据采集的介绍 1.爬虫是什么 概念:通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。 2.爬虫的合法性 2.1 风险 爬虫干扰了被访问网站的正常运营 抓取了受到法律保护的特定类型的数据信息 2.2 使用 优化程序,避免干扰被访问网站的正常运行。 使用,或传播抓取到的数 阅读全文
posted @ 2022-07-01 09:16 紫青宝剑 阅读(511) 评论(0) 推荐(0)
摘要:网址:https://www.gushiwen.org/guwen/sunzi.aspx 访问地址: 进行页面的分析:通过抓包工具进行分析 标题: 章节目录链接: 进行第一部分的代码编写: # author:ziqingbaojian # 导入第三方模块 import requests import 阅读全文
posted @ 2020-11-08 10:17 紫青宝剑 阅读(176) 评论(0) 推荐(0)
摘要:爬取编程常用的英文单词 网站分析: 通过抓包工具进行分析,页面并非为动态加载; 代码编写: #author:ziqingbajin # title:爬取扇贝网编程需背单词 import requests from time import sleep from lxml import etree fr 阅读全文
posted @ 2020-10-31 12:57 紫青宝剑 阅读(242) 评论(0) 推荐(1)