随笔分类 -  测试开发 - python

摘要:前置:是接着该篇随笔https://www.cnblogs.com/gltou/p/16400449.html继续完善功能。该篇随笔增加了示例项目下载网站图片的功能 items.py 将原先的图片url变量 pic_url 注释掉,新增图片url变量 image_urls 。注意变量名必须得是这个, 阅读全文
posted @ 2022-07-06 10:05 葛老头 阅读(295) 评论(0) 推荐(0)
摘要:该篇笔记的代码是接着上一篇文章中的示例项目接着写的,完善我们的土巴兔爬虫项目 伪装爬虫 - user agent中间件的编写 前置知识:user agent 用户代理(User Agent,简称 UA),是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览 阅读全文
posted @ 2022-07-06 10:04 葛老头 阅读(251) 评论(0) 推荐(0)
摘要:什么是Scrapy 基于Twisted的异步处理框架 纯python实现的爬虫框架 基本结构:5+2框架,5个组件,2个中间件 5个组件: Scrapy Engine:引擎,负责其他部件通信 进行信号和数据传递;负责Scheduler、Downloader、Spiders、Item Pipeline 阅读全文
posted @ 2022-07-05 09:56 葛老头 阅读(1274) 评论(0) 推荐(0)
摘要:基本使用 selenium在爬虫中的应用 获取动态网页中的数据,一些动态的数据我们在获取的源码中并没有显示的之一类动态加载数据 可用于模拟登录 安装selenium pip install selenium 下载浏览器驱动 Chrome浏览器 下载地址:http://chromedriver.sto 阅读全文
posted @ 2022-07-04 20:20 葛老头 阅读(291) 评论(0) 推荐(0)
摘要:什么是lxml库 lxml是一种使用Python编写的库,可以迅速、灵活地处理XML 支持XPath(XML Path Language) 学习lxml库的目的 利用XPath语法,来快速的定位特定元素以及节点信息 目的是提取出HTML、XML目标的数据 安装lxml库 pip install lx 阅读全文
posted @ 2022-07-04 20:19 葛老头 阅读(372) 评论(0) 推荐(0)
摘要:什么是Beautiful Soup库 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能 它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序 Beautiful Soup就是python的一 阅读全文
posted @ 2022-07-04 16:27 葛老头 阅读(748) 评论(0) 推荐(1)
摘要:什么是XPath XPath即为XML路径语言(XML Path Language) XPath可以用于定位XML文本的节点 实际上,XPath也适用于定位HTML中的节点 节点及节点间的关系 在HTML中,节点就是一个个HTML标签 分析节点间的关系也就是要清楚HTML文档中各标签间的关系 理清这 阅读全文
posted @ 2022-07-04 16:25 葛老头 阅读(264) 评论(0) 推荐(0)
摘要:文件、图片读写 方式一 import requests r=requests.get("https://dss0.bdstatic.com/5aV1bjqh_Q23odCf/static/superman/img/logo/logo_white-d0c9fe2af5.png") with open( 阅读全文
posted @ 2022-07-01 08:56 葛老头 阅读(123) 评论(0) 推荐(0)
摘要:7个主要方法 序号 方法 方法表达式 作用 参数 1 request requests.request(method, url, **kwargs) 构造一个请求,支撑以下各方法的基础方法 method :请求方式,对应get/post等 url :网页链接 **kwargs :关键字参数,可选,共 阅读全文
posted @ 2022-07-01 08:55 葛老头 阅读(209) 评论(0) 推荐(0)
摘要:co 阅读全文
posted @ 2022-07-01 08:44 葛老头 阅读(605) 评论(0) 推荐(0)
摘要:1.学习前置【必看】 近年来由于抓取数据而引起的纠纷越来越多,有的锒铛入狱,有的被处罚金,本人爬虫笔记学习提醒大家:爬虫有风险,采集需谨慎,写代码不能违法,写代码背后也有法律风险 1.1爬虫注意点 1.1.1遵守Robots协议 Robots协议,也称为爬虫协议、机器人协议等,全称是“网络爬虫排除标 阅读全文
posted @ 2022-06-30 13:50 葛老头 阅读(1813) 评论(5) 推荐(4)
摘要:1.pymongo的安装与使用 1.1.pymongo安装 安装pymongo pymongodb模块api官方文档:https://pymongo.readthedocs.io/en/stable/tutorial.html pip install pymongo 1.2.pymongo使用 1. 阅读全文
posted @ 2022-06-30 13:48 葛老头 阅读(139) 评论(0) 推荐(0)
摘要:1.集合数据导入导出 1.1.导出集合数据 mongoexport:导出数据 --host:mongodb服务器地址 --port:mongodb端口 -u:用户 -p:密码 --authenticationDatabase=逻辑库:登录的用户隶属于哪个逻辑库 -d:要导出哪个逻辑库 -c:要导出哪 阅读全文
posted @ 2022-06-30 13:46 葛老头 阅读(452) 评论(0) 推荐(0)
摘要:1.MongoDB的数据结构 1.1.数据结构 1.2.管理逻辑库 // 创建/切换逻辑库 use test db.student.save({name:"lisi",age:25}) // 查看逻辑库 show dbs // 删除逻辑库 use test //先进入要删除的逻辑库,再执行删除命令 阅读全文
posted @ 2022-06-30 13:45 葛老头 阅读(61) 评论(0) 推荐(0)
摘要:MongoDB数据库的介绍与安装 step-1:下载 官网下载:https://www.mongodb.com/ 百度网盘:https://pan.baidu.com/s/1C7jU_RO-qywcmz-tFjJy9A?pwd=mc9c 提取码: mc9c step-2:安装 一直点击下一步安装即可 阅读全文
posted @ 2022-06-30 13:43 葛老头 阅读(155) 评论(0) 推荐(0)
摘要:Redis与Python的交互 1.redis-py的安装与使用 1.1.redis-py的安装 利用pip命令安装redis-py模块 pip install redis -i https://pypi.tuna.tsinghua.edu.cn/simple some-package redis- 阅读全文
posted @ 2022-05-27 14:13 葛老头 阅读(189) 评论(0) 推荐(1)
摘要:Redis事务特性 redis特点 redis开启事务 redis取消事务 redis命令文档 http://doc.redisfans.com/index.html 阅读全文
posted @ 2022-05-27 14:12 葛老头 阅读(60) 评论(0) 推荐(0)
摘要:1.Redis常用数据类型结构 1.1.字符串类型 设置、获取、删除字符串 字符串指令 序号 作用 指令 参数 示例 1 截取字符串内容 GETRANGE 截取范围的起始下标 redis > GETRANGE email 0 3 2 获得字符串长度 STRLEN redis > STRLEN ema 阅读全文
posted @ 2022-05-26 19:07 葛老头 阅读(105) 评论(0) 推荐(0)
摘要:1.Redis安装 1.1.Linux环境安装Redis step-1:下载Redis 进入官网找到下载地址 https://redis.io/download wget https://github.com/redis/redis/archive/7.0.0.tar.gz step-2:解包 ta 阅读全文
posted @ 2022-05-25 15:53 葛老头 阅读(1444) 评论(0) 推荐(3)
摘要:数据库读取图片 1 import mysql.connector.pooling 2 import os 3 4 __config = { 5 'host': 'localhost', 6 'port': 3306, 7 'user': 'root', 8 'password': '123456', 阅读全文
posted @ 2022-05-25 10:52 葛老头 阅读(157) 评论(0) 推荐(0)