随笔分类 - 爬虫
摘要:一 . PyExecJS模块 pyexecjs是一个可以帮助我们运行js代码的一个第三方模块. 其使用是非常容易上手的. 但是它的运行是要依赖能运行js的第三方环境的. 这里我们选择用node作为我们运行js的位置. 1.1 安装Nodejs 略...... 切记. 重启pycharm或者重启电脑.
阅读全文
摘要:scrapy模拟登陆&分页 一、模拟登陆 学习目标: 应用 scrapy直接携带cookie模拟登陆的方法 应用 scrapy.FormRequest()发送post请求进行登陆 1、回顾之前的模拟登陆的方法 1.1 requests模块是如何实现模拟登陆的? 直接携带cookies请求页面 找ur
阅读全文
摘要:一、scrapy_redis分布式原理 学习目标 了解 scarpy_redis的概念和功能 了解 scrapy_redis的原理 了解 redis数据库操作命令 在前面scrapy框架中我们已经能够使用框架实现爬虫爬取网站数据,如果当前网站的数据比较庞大, 我们就需要使用分布式来更快的爬取数据 1
阅读全文
摘要:1.爬取空气质量在线检测分析平台:https://www.aqistudy.cn/?mobile=false 问题: 1.登录成功后,右击会显示如下 2.登录成功后会显示如下弹框:检测到非法调试,右键被管理员占用 3.试下F12,显示结果如下,依然不行 4.先把调试工具打开,在输入网址,点击回车 显
阅读全文
摘要:一.MD5加密 MD5是一个非常常见的摘要(hash)算法.. 其特点就是小巧. 速度快. 极难被破解(王小云女士). 所以, md5依然是国内非常多的互联网公司选择的密码摘要算法. 这玩意不可逆. 所以. 摘要算法就不是一个加密逻辑. 相同的内容计算出来的摘要应该是一样的 不同的内容(哪怕是一丢丢
阅读全文
摘要:分布式 分布式的本质就如上期提到的一个概念:分布式系统是若干独立计算机的集合,这些计算机对于用户来说就像是单个相关系统。这就是在说,把廉价的计算机堆到一起,通过程序控制,使其整体用起来像个高性能计算机,目的就是节约成本。 对于分布式爬虫系统来说,假设1台机器能10天爬完一个任务,如果部署10台机器,
阅读全文
摘要:1.数据解析 -使用response.xpath("xpath表达式") -scrapy封装的xpath和etree中的xpath区别: -scrapy中的xpath直接将定位到的标签中存储的值或者属性值取出,返回的Selector对象数据值是存储在Selector对象的data属性,需要调用ext
阅读全文
摘要:一、验证码识别 验证码识别是基于线上的打码平台识别验证码 -打码平台: 1.超级鹰(http://www.chaojiying.com/) -注册(用户中心身份) -登录(用户中心身份) -1.查询余额,请充值 -2.创建一个软件ID(899370) -3.下载示例代码 2.云打码 3.打码兔 示例
阅读全文
摘要:cookie使用 cookie是存储在客户端的一组键值对 web在cookie的典型应用是免密登录 cookie和爬虫之间的关联: 有时,在对一张页面进行请求的时候,如果请求的过程中不携带cookie的话, 那么就无法请求到正确的页面数据,。因此cookie是爬虫中一个非常典型且常见的反爬机制 im
阅读全文
摘要:1.环境安装 pip install lxml 2.解析原理 2.1实例化一个etree的对象,且将待解析的页面源码数据加载到该对象中 2.2调用etree对象的xpath方法结合着不同的xpath表达式实现标签的定位和数据提取 3.实例化etree对象 etree.parse('filename'
阅读全文
摘要:1.介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返回的数据(例如 Amazon As
阅读全文
摘要:一、CRUD操作 1.数据库操作 #创建 use 数据库名字(有则进入,无责创建,如果新建的数据库没数据,show dbs 是不会显示新建的数据库的) #删除 use 数据库名字 # 先切换到需要删除的库下 db.dropDatabase() 2.集合操作(表操作) #创建 db user # us
阅读全文
摘要:一、介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 from selenium
阅读全文
摘要:一、 Beautiful Soup 介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful So
阅读全文
摘要:一、解析json response=requests.get('http://httpbin.org/get') import json res1=json.loads(response.text) #太麻烦 res2=response.json() #直接获取json数据 print(res1 =
阅读全文
摘要:一、什么是爬虫 向网站发送http请求,就会拿回一些页面/jason格式的数据(request)处理数据,解析出需要的数据(惹,bs4)存储(mysql,文件,cvs,redis,es,mongodb)分析爬虫分类1.通用爬虫:要求爬取一整张页面源码数据2.聚焦爬虫:要求爬取一张页面中的局部的数据(
阅读全文
浙公网安备 33010602011771号