随笔分类 -  python笔记

1 2 3 4 5 ··· 10 下一页
摘要:编辑本目录 学习opencv-python笔记记录 五、部分 OpenCV中的GUI特性-图像 编辑 五、OpenCV中的GUI特性-视频 编辑 六、OpenCV中的绘图函数 编辑 七、鼠标当画笔 编辑 八、滑动条做调色板 编辑 九、图像基本操作 编辑 十、图像上的算术运算 编辑 十一、程序性能检测 阅读全文
posted @ 2021-07-06 12:12 丫丫625202 阅读(21) 评论(0) 推荐(0)
摘要:编辑本目录 一、nginx配置 编辑 二、自动化运维 编辑 阅读全文
posted @ 2019-10-24 17:17 丫丫625202 阅读(103) 评论(0) 推荐(0)
摘要:编辑本随笔 调度器常用方法: pause_job:暂停任务 resume_job:恢复任务 remove_job():删除任务 阅读全文
posted @ 2019-03-07 17:54 丫丫625202 阅读(222) 评论(0) 推荐(0)
摘要:编辑本目录 博文链接 探无止境 浅析APScheduler APScheduler调度器 编辑 阅读全文
posted @ 2019-03-07 17:51 丫丫625202 阅读(111) 评论(0) 推荐(0)
摘要:编辑本随笔 Nginx ebook 删除带#的行 sed -i "/#/d" nginx.conf 有空行的也删除 sed -i "/^$/d" nginx.conf 中文文档 官网下载地址 安装: mv nginx-1.15.5.tar.gz /usr/src/ cd /usr/src/ tar 阅读全文
posted @ 2019-03-01 08:50 丫丫625202 阅读(200) 评论(0) 推荐(0)
摘要:编辑本随笔 时间复杂度:用来评估算法运行效率的一个式子O(n) 空间复杂度:用来评估算法内存占用大小,一维列表O(n),二维列表O(mn) 递归 汉诺塔问题 阅读全文
posted @ 2019-02-28 17:51 丫丫625202 阅读(308) 评论(0) 推荐(0)
摘要:添加新随笔 编辑本目录 算法复杂度 编辑 阅读全文
posted @ 2019-02-28 11:04 丫丫625202 阅读(122) 评论(0) 推荐(0)
摘要:编辑本随笔 爬虫模块 robots协议 处理验证码 数据解析方式 如何爬取动态加载的页面数据 有哪些反扒机制 scrapy中接触过几种爬虫的类 如何实现分布式流程 阅读全文
posted @ 2019-02-28 10:53 丫丫625202 阅读(125) 评论(0) 推荐(0)
摘要:编辑本随笔 bobo博客 UA池和代理池均在下载中间件中实现,中间件中实现后需要到setting文件中开启相关中间件 UA池 版本不一样,导包位置可能不一样from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware 常 阅读全文
posted @ 2019-02-27 10:43 丫丫625202 阅读(387) 评论(0) 推荐(0)
摘要:编辑本随笔 bobo博客 案例需求 爬取网易新闻基于文字的新闻,板块包括国内、国际、军事、航空等四个板块 获取指定板块超链接 从页面中提取需要内容 此处并未提取到内容,因实际内容是动态加载的,所以直接用xpath解析不出内容 # -*- coding: utf-8 -*- import scrapy 阅读全文
posted @ 2019-02-26 09:09 丫丫625202 阅读(935) 评论(0) 推荐(0)
摘要:编辑本随笔 概念:在多台机器上执行同一个爬虫程序,实现网站数据的分布式爬取 原生scrapy不可以实现分布式爬虫,原因如下: 分布式爬虫组件:scrapy-redis,该组件可以让scrapy实现分布式。 分布式爬取流程: 将bind 127.0.0.1注销掉 将保护模式改为no,关闭保护模式,即p 阅读全文
posted @ 2019-02-25 17:18 丫丫625202 阅读(373) 评论(0) 推荐(0)
摘要:编辑本随笔 CrawlSpider概念:CrawlSpider就是Spider的一个类,功能更加强大。包含链接提取器,规则解析器。 代码: # -*- coding: utf-8 -*- import scrapy from scrapy.linkextractors import LinkExtr 阅读全文
posted @ 2019-02-25 16:33 丫丫625202 阅读(319) 评论(0) 推荐(0)
摘要:编辑本随笔 一、Scapy核心组件 引擎:用来处理整个系统的数据流处理,出发事物 管道:负责处理爬虫从网页上提取的实体信息,主要是持久化和验证实体的有效性,清楚不需要的信息。 调度器:接受引擎发过来的请求,由它决定下一个要爬取的网址,去处重复网址 下载器:下载网页内容,将网页发回给蜘蛛,scrapy 阅读全文
posted @ 2019-02-22 11:05 丫丫625202 阅读(593) 评论(0) 推荐(0)
摘要:编辑本随笔 一、单页面爬取 class QiubaibypagesItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() author = scrapy.Field() conte 阅读全文
posted @ 2019-02-20 09:39 丫丫625202 阅读(1505) 评论(0) 推荐(0)
摘要:编辑本随笔 简介: Scrapy:为了爬去网站数据而编写的一款应用框架,即集成了相应功能且具有很强通用性的项目模板。 功能: 安装:linux用pip install scrapy安装即可,win安装查找其他资料 基础使用: 1.创建一个工程 命令:scrapy startproject first 阅读全文
posted @ 2019-02-19 14:20 丫丫625202 阅读(301) 评论(0) 推荐(0)
摘要:编辑本随笔 selenum打开浏览器进行操作: 可以实现让浏览器完成自动化操作 使用步骤: 环境搭建,安装selenum。pip install selenium 获取浏览器的驱动程序,下载地址,另一个下载地址,浏览器与驱动版本对应关系 环境搭建,安装selenum。pip install sele 阅读全文
posted @ 2019-02-18 18:42 丫丫625202 阅读(265) 评论(0) 推荐(0)
摘要:编辑本随笔 爬虫步骤: 数据解析的三种方式: 项目一、正则解析 #需求:使用正则对糗事百科中的图片进行解析和下载操作 import requests import re import os #指定url url="https://www.qiushibaike.com/pic/" #自定义heade 阅读全文
posted @ 2019-02-18 13:51 丫丫625202 阅读(248) 评论(0) 推荐(0)
摘要:编辑本随笔 1、手动识别 2、打码平台自动识别验证码 对携带验证码的的页面数据进行抓取 可以将页面数据中验证码进行解析,将验证码图片下载到本地 打码兔平台: 云打码平台: 注册开发者账号和普通账号 登录开发者账号,下载事例代码(开发文档-调用示例及最新DELL),点击PythonHTTP示例下载 创 阅读全文
posted @ 2019-02-18 09:56 丫丫625202 阅读(1701) 评论(0) 推荐(0)
摘要:编辑本随笔 一、Cookie cookie作用:服务器使用cookie来记录客户端的状态信息 实现流程: 执行登陆操作(获取cookie) 在发起个人主页请求时,需要将cookie携带到该请求中 注意:session对象,也可以发送请求,如果服务器端会给客户端返回cookie,session对象自动 阅读全文
posted @ 2019-02-14 17:32 丫丫625202 阅读(175) 评论(0) 推荐(0)
摘要:编辑本随笔 一、request模块简介 python原生基于网络请求的模块,模拟浏览器发起请求。 urllib需要手动处理url编码,使用quote()处理中文编码 urllib需要手动处理post请求的参数,将请求参数封装到字典后用urlencode()处理,在用encode()进行编码 urll 阅读全文
posted @ 2019-02-12 17:26 丫丫625202 阅读(262) 评论(0) 推荐(0)

1 2 3 4 5 ··· 10 下一页