随笔分类 -  python爬虫

摘要:1. 日志相关概念 1.1 日志的作用 通过log的分析,可以方便用户了解系统或软件、应用的运行情况;如果你的应用log足够丰富,也可以分析以往用户的操作行为、类型喜好、地域分布或其他更多信息;如果一个应用的log同时也分了多个级别,那么可以很轻易地分析得到该应用的健康状况,及时发现问题并快速定位、 阅读全文
posted @ 2022-02-26 20:08 齐天_大圣 阅读(89) 评论(0) 推荐(0)
摘要:Appium环境搭建 有的APP需要反编译,分析加密算法后,再获取信息。有的APP还需要脱壳,再需要反编译,分析加密算法。但要再了解这些问题,还是需要花些时间的,所以在些,我们可以通过移动端对APP的控制,来解析数据获取数据。 1. Android SDK安装 SDK:(software devel 阅读全文
posted @ 2022-02-26 20:07 齐天_大圣 阅读(111) 评论(0) 推荐(0)
摘要:利用appium提取数据 1 appium-python-client使用 1.1 安装appium-python-client模块 pip install appium-python-client 1.2 初始化以及获取移动设备分辨率 完成代码如下,并运行代码查看效果:如果模拟器中抖音app被启动 阅读全文
posted @ 2022-02-26 20:07 齐天_大圣 阅读(200) 评论(0) 推荐(0)
摘要:移动端爬虫 爬虫除了 Web 网页,也可以抓取 App 的数据。App 中的页面要加载出来,首先需要获取数据,而这些数据一般是通过请求服务器的接口来获取的。由于 App 没有浏览器这种可以比较直观地看到后台请求的工具,所以主要用一些抓包技术来抓取数据 1. 抓包工具的安装 Fiddler是一个htt 阅读全文
posted @ 2022-02-26 20:06 齐天_大圣 阅读(91) 评论(0) 推荐(0)
摘要:Scrapyd的安装与使用 Scrapyd — Scrapyd 1.2.0 documentation scrapyd是一个用于部署和运行scrapy爬虫的程序,它允许你通过JSON API来部署爬虫项目和控制爬虫运行,scrapyd是一个守护进程,监听爬虫的运行和请求,然后启动进程来执行它们 1. 阅读全文
posted @ 2022-02-26 20:05 齐天_大圣 阅读(329) 评论(0) 推荐(0)
摘要:常见的加密方式 1. Base64 1.1 介绍 Base64是一种用64个字符来表示任意二进制数据的方法。base64是一种编码方式而不是加密算法。只是看上去像是加密 Base64使用A-Z,a-z,0-9,+,/ 64个字符实现对数据进行加密 1.2 Python使用 import base64 阅读全文
posted @ 2022-02-26 20:04 齐天_大圣 阅读(1070) 评论(0) 推荐(0)
摘要:IP代理池 1. 代理IP从何而来 刚自学爬虫的时候没有代理IP就去西刺、快代理之类有免费代理的网站去爬,还是有个别代理能用。当然,如果你有更好的代理接口也可以自己接入。 免费代理的采集也很简单,无非就是:访问页面页面 —> re/json/xpath提取 —> 保存 2. 如何保证代理质量 可以肯 阅读全文
posted @ 2022-02-26 20:04 齐天_大圣 阅读(252) 评论(0) 推荐(0)
摘要:Python 调用 JS 的几种方式 日常 Web 端爬虫过程中,经常会遇到参数被加密的场景,因此,我们需要分析网页源代码 通过调式,一层层剥离出关键的 JS 代码,使用 Python 去执行这段代码,得出参数加密前后的 Python 实现 //计算两个数的和 function add(num1, 阅读全文
posted @ 2022-02-26 20:03 齐天_大圣 阅读(310) 评论(0) 推荐(0)
摘要:图片验证码 1. 介绍 验证码(CAPTCHA)是“Completely Automated Public Turing test to tell Computers and Humans Apart”(全自动区分计算机和人类的图灵测试)的缩写,是一种区分用户是计算机还是人的公共全自动程序。 防止恶 阅读全文
posted @ 2022-02-26 20:03 齐天_大圣 阅读(222) 评论(0) 推荐(0)
摘要:安装 pip安装scrapy-splash库 pip install scrapy-splash scrapy-splash使用的是Splash HTTP API, 所以需要一个splash instance,一般采用docker运行splash,所以需要安装docker 安装docker, 安装好 阅读全文
posted @ 2022-02-26 20:02 齐天_大圣 阅读(85) 评论(0) 推荐(0)
摘要:1. Splash介绍 Splash是一个JavaScript渲染服务,是一个带有HTTP API的轻量级浏览器,同时它对接了Python中的Twisted和QT库。利用它,我们同样可以实现动态渲染页面的抓取 文档地址: 文档http://splash.readthedocs.io/en/stabl 阅读全文
posted @ 2022-02-26 20:01 齐天_大圣 阅读(359) 评论(0) 推荐(0)
摘要:常见的反爬手段和解决思路 为什么要反爬 因爬虫的访问频率过高影响服务器的运行 影响别人业务 导致服务器宕机 单一的DoS攻击一般是采用一对一方式的,它利用网络协议和操作系统的一些缺陷,采用欺骗和伪装的策略来进行网络攻击,使网站服务器充斥大量要求回复的信息,消耗网络带宽或系统资源,导致网络或系统不胜负 阅读全文
posted @ 2022-02-26 20:00 齐天_大圣 阅读(843) 评论(0) 推荐(0)
摘要:setting文件配置 #启用Redis调度存储请求队列 SCHEDULER = "scrapy_redis.scheduler.Scheduler" #确保所有的爬虫通过Redis去重 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilte 阅读全文
posted @ 2022-02-26 19:58 齐天_大圣 阅读(49) 评论(0) 推荐(0)
摘要:使用CentOSmini 系统 1. 安装 python3 1.1 安装装python3的环境 yum install gcc* zlib* 1.2 下载 Python3 **在官方网站下载最新版本python3.8*8 wget https://www.python.org/ftp/python/ 阅读全文
posted @ 2022-02-26 19:56 齐天_大圣 阅读(37) 评论(0) 推荐(0)
摘要:1. 介绍scrapy-redis框架 scrapy-redis 一个三方的基于redis的分布式爬虫框架,配合scrapy使用,让爬虫具有了分布式爬取的功能。 github地址: https://github.com/darkrho/scrapy-redis 2. 分布式原理 scrapy-red 阅读全文
posted @ 2022-02-26 19:55 齐天_大圣 阅读(44) 评论(0) 推荐(0)
摘要:1. Spider 下载中间件(Middleware) Spider 中间件(Middleware) 下载器中间件是介入到 Scrapy 的 spider 处理机制的钩子框架,您可以添加代码来处理发送给 Spiders 的 response 及 spider 产生的 item 和 request 2 阅读全文
posted @ 2022-02-26 19:53 齐天_大圣 阅读(73) 评论(0) 推荐(0)
摘要:1. Scrapy-Request和Response(请求和响应) Scrapy的Request和Response对象用于爬网网站。 通常,Request对象在爬虫程序中生成并传递到系统,直到它们到达下载程序,后者执行请求并返回一个Response对象,该对象返回到发出请求的爬虫程序。 2. Req 阅读全文
posted @ 2022-02-26 19:52 齐天_大圣 阅读(93) 评论(0) 推荐(0)
摘要:CrawlSpiders 原理图 通过下面的命令可以快速创建 CrawlSpider模板 的代码 scrapy genspider -t crawl 文件名 (allowed_url) 首先在说下Spider,它是所有爬虫的基类,而CrawSpiders就是Spider的派生类。对于设计原则是只爬取 阅读全文
posted @ 2022-02-26 19:51 齐天_大圣 阅读(49) 评论(0) 推荐(0)
摘要:Scrapy内置设置 settings-2.5.0文档 (scrapy.org) 下面给出scrapy提供的常用内置设置列表,你可以在settings.py文件里面修改这些设置,以应用或者禁用这些设置项 BOT_NAME 默认: 'scrapybot' Scrapy项目实现的bot的名字。用来构造默 阅读全文
posted @ 2022-02-26 19:50 齐天_大圣 阅读(72) 评论(0) 推荐(0)
摘要:爬取小说 spider import scrapy from xiaoshuo.items import XiaoshuoItem class XiaoshuoSpiderSpider(scrapy.Spider): name = 'xiaoshuo_spider' allowed_domains 阅读全文
posted @ 2022-02-26 19:50 齐天_大圣 阅读(31) 评论(0) 推荐(0)