摘要: scrapy总结 1 scrapy项目开发流程 1.1 创建项目命令 scrapy startproject guokespider 1.2 创建一个爬虫 在终端中,先进入到爬虫项目目录下, 然后执行生成爬虫命令,格式scrapy genspider 爬虫名 域名 scrapy genspider 阅读全文
posted @ 2022-01-06 17:15 三叶草body 阅读(191) 评论(0) 推荐(0)
摘要: 图片识别引擎 1 tesseract OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,它们都是一些不规则的字符,这些字符确实是由字符稍加扭曲变换得到的内容。 tesseract下载地址1 阅读全文
posted @ 2021-12-28 14:18 三叶草body 阅读(364) 评论(0) 推荐(0)
摘要: 请求响应数据提取 1 响应分类 1.1 结构化数据 1.1.1 json数据 josn格式数据出现比较高频,使用json,re,jsonpath等模块提取数据。 1.1.2 xml数据 xml是一种可扩展标识语言,功能更加专注于存储和传输数据。 xml格式数据低频出现,使用re, lxml等模块提取 阅读全文
posted @ 2021-12-25 15:03 三叶草body 阅读(137) 评论(0) 推荐(0)
摘要: win10配置python虚拟环境的路径 当我们在进行python项目开发的时候,为了不让项目间的python环境产生冲突,这是需要配置虚拟环境,从而使项目与项目之间的包相互隔离,互不影响。 1 安装 pip install virtualenvwrapper pip install virtual 阅读全文
posted @ 2021-12-25 11:35 三叶草body 阅读(350) 评论(0) 推荐(0)
摘要: flask-sqlalchemy总结 Flask-SQLAlchemy是一个Flask扩展,简化了在Flask程序中使用SQLAlchemy的操作。SQLAlchemy是一个很强大的关系型数据库框架,支持多种数据库后台。SQLAlchemy提供了高层ORM,也提供了使用数据库原生SQL的低层功能。 阅读全文
posted @ 2021-12-22 17:48 三叶草body 阅读(712) 评论(0) 推荐(0)
摘要: 1 cookie cookie是存储在浏览器中的键值对文本信息。 由于HTTP是一种无状态的协议,服务器单从网络连接上无从知道客户身份。怎么办呢?就给客户端们颁发一个通行证吧,每人一个,无论谁访问都必须携带自己通行证。这样服务器就能从通行证上确认客户身份了。这就是Cookie的工作原理。 cooki 阅读全文
posted @ 2021-12-14 16:30 三叶草body 阅读(232) 评论(0) 推荐(0)
摘要: mysql8.0忘记数据库密码 以win10系统为例: 停止数据库服务 net stop mysql 以不输入密码的方式启动MySQL服务 mysqld --defaults-file="D:\\software\\mysql-8.0.26-winx64\\my.ini" --user=mysql 阅读全文
posted @ 2021-11-12 09:40 三叶草body 阅读(229) 评论(0) 推荐(0)
摘要: Levenshtein距离 莱文斯坦距离,又称Levenshtein距离,是编辑距离的一种。 指两个字串之間,由一个转成另一个所需的最少编辑操作次数。 允许的编辑操作包括将一个字符替换成另一个字符,插入一个字符,刪除一个字符。 GitHub 提供了计算莱文斯坦距离的包。 安装方法: pip inst 阅读全文
posted @ 2021-11-11 15:28 三叶草body 阅读(1898) 评论(0) 推荐(0)
摘要: 1. 纯净的ubuntu操作系统 安装网络工具包 # 安装 sudo apt-get install net-tools # 重启 sudo /etc/init.d/networking restart 安装上传rz、下载sz工具 sudo apt-get install lrzsz 2. 安装op 阅读全文
posted @ 2021-08-31 10:32 三叶草body 阅读(119) 评论(0) 推荐(0)
摘要: shell基础教程 1. shell脚本 创建脚本 脚本内容:各种可以执行的命令 vim ./脚本名字 脚本使用 退推荐使用脚本执行命令 bash 脚本文件.sh bash test.sh 2.变量 2.1 普通变量 普通变量的定义方式有如下三种,接下来我们就分别说一下这三种方式:数字不加引号,其他 阅读全文
posted @ 2021-08-26 15:24 三叶草body 阅读(175) 评论(0) 推荐(0)