摘要: import os import fitz doc = fitz.open('D:\888\888\\6.pdf') imgcount = 0for page in doc: imageList = page.get_images() print(imageList) i = 0 for imgin 阅读全文
posted @ 2024-01-25 17:45 淋哥 阅读(10) 评论(0) 推荐(0) 编辑
摘要: 总有人说python做爬虫速度慢,能开并发数少,至于为什么慢就是说不上来,今天就是测试一下python语言的速度和并发数量。 在网络爬虫中,影响速度的有数据下载,数据解析,数据存储,最主要的影响是数据下载和数据存储,数据下载影响是网络IO,数据存储是磁盘IO,本次模拟数据下载是1s,然后数据存储直接 阅读全文
posted @ 2022-08-01 18:15 淋哥 阅读(702) 评论(0) 推荐(0) 编辑
摘要: 互联网的数据有web,app,小程序,windows客户端等,抓取数据不能拘泥于一点,只要能搞到数据,一切都是OK。 今天主要详细的介绍一下windows的抓包。 1. 下载windows客户端,安装 这个就不介绍了,太简单了,不会的就别往下再去看这个教程了。 2. 安装fiddler 百度fidd 阅读全文
posted @ 2022-06-16 17:54 淋哥 阅读(4584) 评论(0) 推荐(0) 编辑
摘要: 1. 进入到bootloader 按着手机开机键+ 音量- 键,进入到bootloader2. 查看到已连接的设备 fastboot devices 3. 解锁 fastboot oem unlock 4. 检查是否已经解锁 fastboot oem device-info 第二行 Device u 阅读全文
posted @ 2022-01-06 14:40 淋哥 阅读(966) 评论(0) 推荐(0) 编辑
摘要: 需要对谷歌插件进行网络请求分析,正常的fiddler无法抓包,研究了一番,使用浏览器代理的方式进行抓包。 1. 安装谷歌插件 2. 安装代理插件 Proxy SwitchyOmega 正常安装即可 3. 设置 Proxy SwitchyOmega ip地址和端口 设置完毕后注意启动代理 5. 启动f 阅读全文
posted @ 2021-11-18 12:08 淋哥 阅读(1020) 评论(0) 推荐(0) 编辑
摘要: 在编写爬虫代码的过程中,程序员会使用redis 集合进行去重,今天就测试一下redis去重需要多少内存的问题 过程:我们对10w,100w,1000w 的数字进行 md5 加密,生成唯一的32位字符串,然后存入到redis集合中去,通过rdm 的 内存分析占用查看redis的大小。 1. 对10w 阅读全文
posted @ 2021-07-24 17:11 淋哥 阅读(612) 评论(0) 推荐(0) 编辑
摘要: 打开网站会看到瑞数的无限degugger,特恶心啊 魔高一尺道高一丈 怎么处理呢? 选中 debugger这行,然后 Edit breakpoint ,输入if 1>2 即可 阅读全文
posted @ 2021-06-04 11:26 淋哥 阅读(1149) 评论(0) 推荐(0) 编辑
摘要: 1. 首先看一下 python 多进程的优点和缺点 二: 测试服务器情况: cpu是12核心,内存是128G 三:测试目的: 测试目的是因为多进程 切换开销大,创建进程的代价大,通过开不同的进程数量,测试是否会出现进程开的越多,爬虫的速度越慢的情况。 四:测试软件条件: 1. 用10000个关键词, 阅读全文
posted @ 2019-09-12 13:16 淋哥 阅读(5331) 评论(0) 推荐(3) 编辑
摘要: 首先对一百万数据进行排序: 对一千万数据进行排序: 对一亿数据进行排序: 阅读全文
posted @ 2019-09-01 00:20 淋哥 阅读(1520) 评论(0) 推荐(0) 编辑
摘要: 大众点评评论数据抓取 反爬虫措施有css文字映射和字体库反爬虫 大众点评的反爬虫手段有那些: 封ip,封账号,字体库反爬虫,css文字映射,图形滑动验证码 这个图片是滑动验证码,访问频率高的话,会出现这个滑动验证码 这个图片是店铺失效或者封账号出现的提示 关于大众点评 css文件映射分析: 第一步: 阅读全文
posted @ 2019-08-29 09:51 淋哥 阅读(6741) 评论(10) 推荐(6) 编辑
摘要: 这是一个rsa加密,并且每次加密候的数据固定不变。 第一步:查看加密字段 第二步:搜索加密参数 第三步:打断点调试 1 2 3. 第四部:js调试工具调试 第五步:源码 function c(a) { var b = f, c = b.biDivideByRadixPower(a, this.k - 阅读全文
posted @ 2019-08-29 09:17 淋哥 阅读(1098) 评论(0) 推荐(0) 编辑
摘要: 京东登录,有一个参数nloginpwd,是加密字段。 第一步:浏览器抓包 第二部:搜索加密字段 js 代码 第三部: 下断点 2. js代码: var navigator = {}; var window = {}; var Base64 = {}; var ASN1 = {}; var Hex = 阅读全文
posted @ 2019-08-28 16:53 淋哥 阅读(2294) 评论(0) 推荐(0) 编辑
摘要: 今天介绍一个简单验证的识别。 主要是标准的格式,没有扭曲和变现。就用 pytesseract 去识别一下。 验证码地址:http://wscx.gjxfj.gov.cn/zfp/webroot/xfsxcx.html 需要识别的验证码是: 因为这个验证码有干扰点,所以直接识别的效果非常不好。 首先对 阅读全文
posted @ 2019-08-10 23:59 淋哥 阅读(1695) 评论(0) 推荐(0) 编辑
摘要: 在这篇博文中手把手教你如何去分割验证,然后进行识别。 一:下载验证码 验证码分析,图片上有折线,验证码有数字,有英文字母大小写,分类的时候需要更多的样本,验证码的字母是彩色的,图片上有雪花等噪点,因此识别改验证码难度较大 二:二值化和降噪: 三: 切割: 四:分类: 五: 测试识别率 六:总结: 综 阅读全文
posted @ 2018-08-10 17:55 淋哥 阅读(21006) 评论(18) 推荐(4) 编辑
摘要: 某个招聘网站的验证码识别,过程如下 一: 原始验证码: 二: 首先对验证码进行分析,该验证码的数字颜色有变化,这个就是识别这个验证码遇到的比较难的问题,解决方法是使用PIL 中的 getpixel 方法进行变色处理,统一把非黑色的像素点变成黑色 变色后的图片 三: 通过观察,发现该验证码有折线,需要 阅读全文
posted @ 2018-08-03 18:07 淋哥 阅读(43368) 评论(5) 推荐(10) 编辑
摘要: 本篇主要介绍网站数据非常大的采集心得 1. 什么样的数据才能称为数据量大: 我觉得这个可能会因为每个人的理解不太一样,给出的定义 也不相同。我认为定义一个采集网站的数据大小,不仅仅要看这个网站包括的数据量的大小,还应该包括这个网址的采集难度,采集网站的服务器承受能力,采集人员所调配的网络带宽和计算机 阅读全文
posted @ 2018-08-01 11:52 淋哥 阅读(3900) 评论(0) 推荐(0) 编辑
摘要: 今天无事写一遍关于爬虫对计算机的影响,主要是给小白同学普及一下爬虫的基础知识。 在我们写爬虫的时候,首先会想到开多线程,如果使用的语言是Python,很不幸,因为Python存在 GIL,在任何时候,CPU内只有一条线程在运行,但是Python的多线程也能提高爬虫的速度,并且我们用python的多线 阅读全文
posted @ 2018-06-18 15:51 淋哥 阅读(6111) 评论(0) 推荐(2) 编辑
摘要: # coding:utf-8 import json import redis import time import requests session = requests.session() import logging.handlers import pickle import sys import re import datetime from bs4 import BeautifulS... 阅读全文
posted @ 2018-01-18 22:22 淋哥 阅读(3141) 评论(0) 推荐(1) 编辑
摘要: 今天使用python 和selenium爬取动态数据,主要是通过不停的更新页面,实现数据的爬取,要爬取的数据如下图 源代码: 阅读全文
posted @ 2018-01-08 13:31 淋哥 阅读(11430) 评论(0) 推荐(0) 编辑
摘要: 我们打开新浪新闻,看到页面如下,首先去爬取一级 url,图片中蓝色圆圈部分 第二zh张图片,显示需要分页, 源代码: 阅读全文
posted @ 2018-01-06 19:28 淋哥 阅读(1391) 评论(0) 推荐(0) 编辑
摘要: 指定绝对路径 python在使用execjs执行js也可以指定node_modules路径,这样就不需要进行环境变量的添加了。 js_code = open("toutiao_signature.js", "r", encoding="utf-8").read() ctx = execjs.comp 阅读全文
posted @ 2024-03-04 18:28 淋哥 阅读(10) 评论(0) 推荐(0) 编辑
摘要: nodejs 下载地址:https://nodejs.org/dist/v14.15.1/ nodejs node-v14.15.1-linux-x64 (2).tar.gz RUN npm install -y jsdom@21.1.1 -g arm64 环境部署: 1. 下载 nodejs 下载 阅读全文
posted @ 2024-01-22 15:34 淋哥 阅读(46) 评论(0) 推荐(0) 编辑
摘要: 1 阅读全文
posted @ 2024-01-12 14:01 淋哥 阅读(3) 评论(0) 推荐(0) 编辑
摘要: #!/usr/bin/env python # Scan and delete keys in Redis. # Author: cdfive from redis import Redis import time def RedisScanAndDelete(host, port, passwor 阅读全文
posted @ 2023-06-27 11:26 淋哥 阅读(258) 评论(0) 推荐(0) 编辑
摘要: kubectl get pod -n crawl|egrep "Error|Terminating|ContainerStatusUnknown|CrashLoopBackOff|Terminating|Evicted"|awk -F " " '{print $1}'|xargs kubectl - 阅读全文
posted @ 2023-05-17 18:52 淋哥 阅读(23) 评论(0) 推荐(0) 编辑
摘要: """该方法实现网页编码的自动识别和转换"""# python 第三方库chardet不可靠,把gbk编码解析成 Windows-1254@retry(stop_max_attempt_number=5, wait_random_min=2000, wait_random_max=20000, )d 阅读全文
posted @ 2023-05-04 17:08 淋哥 阅读(35) 评论(0) 推荐(0) 编辑
摘要: 如果是不创建新浏览器窗口,直接在已打开的浏览器,则代码需要修改为: caps = DesiredCapabilities.CHROMEcaps['loggingPrefs'] = {'performance': 'ALL'} options = webdriver.ChromeOptions()op 阅读全文
posted @ 2023-04-17 17:11 淋哥 阅读(24) 评论(0) 推荐(0) 编辑
摘要: 代码1 from datetime import datetime result = '1970-01-01 07:00:00' time_1 = '1966-07-17 06:03:00' if time_1 > result: array = time.strptime(time_1, "%Y- 阅读全文
posted @ 2023-04-12 16:53 淋哥 阅读(38) 评论(0) 推荐(0) 编辑
摘要: import subprocess # 创建一个新的 Popen 类,并继承自 subprocess.Popen class MySubprocessPopen(subprocess.Popen): def __init__(self, *args, **kwargs): # 在调用父类(即 sub 阅读全文
posted @ 2023-03-29 14:00 淋哥 阅读(153) 评论(0) 推荐(0) 编辑