随笔分类 - python
摘要:目标网站 aHR0cDovL2Nhcy5zd3VzdC5lZHUuY24vYXV0aHNlcnZlci9sb2dpbg== 加密定位和分析 第一个参数 execution 在页面直接存在 第二个参数 这个是直接写死的 第三参数geolocation 直接为空 第四个参数 username 是账号名,
阅读全文
摘要:使用jsdom 在js的头加上 const canvas = require('canvas'); const jsdom = require("jsdom"); const {JSDOM} = jsdom; const dom = new JSDOM(`<!DOCTYPE html><p>Hell
阅读全文
摘要:1 . 使用python+selenium控制手工已打开的浏览器 https://www.cnblogs.com/HJkoma/p/9936434.html 2 . 协程(Coroutine) https://blog.csdn.net/qq_33567641/article/details/821
阅读全文
摘要:安装: pip install mitmproxy 新建一个脚本 脚本代码: 1 from mitmproxy import ctx 2 3 injected_javascript = ''' 4 // overwrite the `languages` property to use a cust
阅读全文
摘要:我的python为3.7 1.需要安装二个模块, PIL 直接使用 pip install PIL 会报错 使用 pip install Pillow 即可安装PIL 第二个直接 pip install pytesseract 2安装好了模块还需要下载 tesseract-ocr 下载网址:http
阅读全文
摘要:scrapy里面,对每次请求的url都有一个指纹,这个指纹就是判断url是否被请求过的。默认是开启指纹即一个URL请求一次。如果我们使用分布式在多台机上面爬取数据,为了让爬虫的数据不重复,我们也需要一个指纹。但是scrapy默认的指纹是保持到本地的。所有我们可以使用redis来保持指纹,并且用red
阅读全文
摘要:今日头条有三个加密参数 先找一个作者的主页,列如:https://www.toutiao.com/c/user/108888017311/#mid=1619989289127939 然后进去抓包找文章的地址发现:https://www.toutiao.com/c/user/article/?page
阅读全文
摘要:安装crypto python3里面这个改成了pycryptodome 1. pip3 install pycryptodome 或者 pip3 install -i https://pypi.douban.com/simple pycryptodome
阅读全文
摘要:scrapy设置ua池 设置后在setting启用 scrapy设置ip池 scrapy 设置自定义cookie:class LaogouwangSpider(scrapy.Spider): scrapy提供五种日志级别。
阅读全文
摘要:使用scrapy爬取整个网站的图片数据。并且使用 CrawlerProcess 启动。 1 # -*- coding: utf-8 -* 2 import scrapy 3 import requests 上面的是spider文件 上面的是item文件 这上面是管道文件 这是在setting里面的,
阅读全文
摘要:Windows下路径是用‘\\’表示也可以使用'/',但是Linux下路径都是‘/’表示。 因为python是跨平台的,有时候程序迁移会出现错误。 解决办法1 可全部使用‘/’表示 解决办法2 我们可以使用os.sep方法,他是一个变量,在Windows下,他等于‘\\’,在Linux下,他等于‘/
阅读全文
摘要:python自带的zipfile的模块支持对文件的压缩和解压操作 zipfilp.ZipFile 表示创建一个zip对象 #file表示文件的路径 #mode表示文件的打开模式 r表示读,默认 w表示写入,没有则新建,有则覆盖 a表示追加写入 #compression表示存储的方式 zipfile.
阅读全文

浙公网安备 33010602011771号