爬虫 - 随笔分类 - 小青年て

execjs安装及使用

摘要：一 . PyExecJS模块 pyexecjs是一个可以帮助我们运行js代码的一个第三方模块. 其使用是非常容易上手的. 但是它的运行是要依赖能运行js的第三方环境的. 这里我们选择用node作为我们运行js的位置. 1.1 安装Nodejs 略...... 切记. 重启pycharm或者重启电脑. 阅读全文

posted @ 2023-08-09 09:56 小青年て阅读(3883) 评论(0) 推荐(0)

scrapy模拟登陆及翻页

摘要：scrapy模拟登陆&分页一、模拟登陆学习目标：应用 scrapy直接携带cookie模拟登陆的方法应用 scrapy.FormRequest()发送post请求进行登陆 1、回顾之前的模拟登陆的方法 1.1 requests模块是如何实现模拟登陆的？直接携带cookies请求页面找ur 阅读全文

posted @ 2023-08-07 12:21 小青年て阅读(100) 评论(0) 推荐(0)

分布式爬虫详解

摘要：一、scrapy_redis分布式原理学习目标了解 scarpy_redis的概念和功能了解 scrapy_redis的原理了解 redis数据库操作命令在前面scrapy框架中我们已经能够使用框架实现爬虫爬取网站数据,如果当前网站的数据比较庞大, 我们就需要使用分布式来更快的爬取数据 1 阅读全文

posted @ 2023-08-07 10:40 小青年て阅读(175) 评论(0) 推荐(0)

JS解密和混淆破解

摘要：1.爬取空气质量在线检测分析平台：https://www.aqistudy.cn/?mobile=false 问题： 1.登录成功后，右击会显示如下 2.登录成功后会显示如下弹框：检测到非法调试，右键被管理员占用 3.试下F12，显示结果如下，依然不行 4.先把调试工具打开，在输入网址，点击回车显阅读全文

posted @ 2023-06-29 20:28 小青年て阅读(436) 评论(0) 推荐(0)

python各种加密逻辑

摘要：一.MD5加密 MD5是一个非常常见的摘要(hash)算法.. 其特点就是小巧. 速度快. 极难被破解(王小云女士). 所以, md5依然是国内非常多的互联网公司选择的密码摘要算法. 这玩意不可逆. 所以. 摘要算法就不是一个加密逻辑. 相同的内容计算出来的摘要应该是一样的不同的内容(哪怕是一丢丢阅读全文

posted @ 2023-06-24 16:10 小青年て阅读(107) 评论(0) 推荐(0)

分布式爬虫

摘要：分布式分布式的本质就如上期提到的一个概念：分布式系统是若干独立计算机的集合，这些计算机对于用户来说就像是单个相关系统。这就是在说，把廉价的计算机堆到一起，通过程序控制，使其整体用起来像个高性能计算机，目的就是节约成本。对于分布式爬虫系统来说，假设1台机器能10天爬完一个任务，如果部署10台机器，阅读全文

posted @ 2023-06-05 14:57 小青年て阅读(77) 评论(0) 推荐(0)

scrapy数据解析与持久化存储

摘要：1.数据解析 -使用response.xpath("xpath表达式") -scrapy封装的xpath和etree中的xpath区别： -scrapy中的xpath直接将定位到的标签中存储的值或者属性值取出，返回的Selector对象数据值是存储在Selector对象的data属性，需要调用ext 阅读全文

posted @ 2023-06-02 00:04 小青年て阅读(180) 评论(0) 推荐(0)

验证码识别与模拟登录

摘要：一、验证码识别验证码识别是基于线上的打码平台识别验证码 -打码平台： 1.超级鹰(http://www.chaojiying.com/) -注册（用户中心身份） -登录（用户中心身份） -1.查询余额，请充值 -2.创建一个软件ID（899370） -3.下载示例代码 2.云打码 3.打码兔示例阅读全文

posted @ 2023-05-31 10:02 小青年て阅读(168) 评论(0) 推荐(0)

cookie与代理

摘要：cookie使用 cookie是存储在客户端的一组键值对 web在cookie的典型应用是免密登录 cookie和爬虫之间的关联：有时，在对一张页面进行请求的时候，如果请求的过程中不携带cookie的话，那么就无法请求到正确的页面数据，。因此cookie是爬虫中一个非常典型且常见的反爬机制 im 阅读全文

posted @ 2023-05-28 16:21 小青年て阅读(88) 评论(0) 推荐(0)

xpath解析

摘要：1.环境安装 pip install lxml 2.解析原理 2.1实例化一个etree的对象，且将待解析的页面源码数据加载到该对象中 2.2调用etree对象的xpath方法结合着不同的xpath表达式实现标签的定位和数据提取 3.实例化etree对象 etree.parse('filename' 阅读全文

posted @ 2023-05-26 17:59 小青年て阅读(85) 评论(0) 推荐(0)

scrapy框架

摘要：1.介绍 Scrapy一个开源和协作的框架，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如 Amazon As 阅读全文

posted @ 2020-03-23 15:12 小青年て阅读(126) 评论(0) 推荐(0)

MongoDB数据库

摘要：一、CRUD操作 1.数据库操作 #创建 use 数据库名字（有则进入，无责创建，如果新建的数据库没数据,show dbs 是不会显示新建的数据库的） #删除 use 数据库名字 # 先切换到需要删除的库下 db.dropDatabase() 2.集合操作（表操作） #创建 db user # us 阅读全文

posted @ 2019-11-28 19:33 小青年て阅读(130) 评论(0) 推荐(0)

爬虫请求库之selenium

摘要：一、介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器 from selenium 阅读全文

posted @ 2019-11-26 16:51 小青年て阅读(204) 评论(0) 推荐(0)

解析库beautifulsoup

摘要：一、 Beautiful Soup 介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful So 阅读全文

posted @ 2019-11-26 16:00 小青年て阅读(243) 评论(0) 推荐(0)

Requests属性

摘要：一、解析json response=requests.get('http://httpbin.org/get') import json res1=json.loads(response.text) #太麻烦 res2=response.json() #直接获取json数据 print(res1 = 阅读全文

posted @ 2019-11-26 14:57 小青年て阅读(209) 评论(0) 推荐(0)

爬虫基本原理

摘要：一、什么是爬虫向网站发送http请求，就会拿回一些页面/jason格式的数据（request）处理数据，解析出需要的数据（惹，bs4）存储（mysql,文件，cvs,redis,es,mongodb）分析爬虫分类1.通用爬虫：要求爬取一整张页面源码数据2.聚焦爬虫：要求爬取一张页面中的局部的数据（阅读全文

posted @ 2019-11-25 18:43 小青年て阅读(593) 评论(0) 推荐(0)

随笔分类 - 爬虫

公告