python笔记 - 随笔分类 - 丫丫625202

OpenCV

摘要：编辑本目录学习opencv-python笔记记录五、部分 OpenCV中的GUI特性-图像编辑五、OpenCV中的GUI特性-视频编辑六、OpenCV中的绘图函数编辑七、鼠标当画笔编辑八、滑动条做调色板编辑九、图像基本操作编辑十、图像上的算术运算编辑十一、程序性能检测阅读全文

posted @ 2021-07-06 12:12 丫丫625202 阅读(21) 评论(0) 推荐(0)

企业应用工具

摘要：编辑本目录一、nginx配置编辑二、自动化运维编辑阅读全文

posted @ 2019-10-24 17:17 丫丫625202 阅读(103) 评论(0) 推荐(0)

APScheduler调度器

摘要：编辑本随笔调度器常用方法： pause_job：暂停任务 resume_job：恢复任务 remove_job()：删除任务阅读全文

posted @ 2019-03-07 17:54 丫丫625202 阅读(222) 评论(0) 推荐(0)

APScheduler

摘要：编辑本目录博文链接探无止境浅析APScheduler APScheduler调度器编辑阅读全文

posted @ 2019-03-07 17:51 丫丫625202 阅读(111) 评论(0) 推荐(0)

nginx配置

摘要：编辑本随笔 Nginx ebook 删除带#的行 sed -i "/#/d" nginx.conf 有空行的也删除 sed -i "/^$/d" nginx.conf 中文文档官网下载地址安装： mv nginx-1.15.5.tar.gz /usr/src/ cd /usr/src/ tar 阅读全文

posted @ 2019-03-01 08:50 丫丫625202 阅读(200) 评论(0) 推荐(0)

算法复杂度

摘要：编辑本随笔时间复杂度：用来评估算法运行效率的一个式子O(n) 空间复杂度：用来评估算法内存占用大小,一维列表O(n),二维列表O(mn) 递归汉诺塔问题阅读全文

posted @ 2019-02-28 17:51 丫丫625202 阅读(308) 评论(0) 推荐(0)

算法与设计模式

摘要：添加新随笔编辑本目录算法复杂度编辑阅读全文

posted @ 2019-02-28 11:04 丫丫625202 阅读(122) 评论(0) 推荐(0)

爬虫总结

摘要：编辑本随笔爬虫模块 robots协议处理验证码数据解析方式如何爬取动态加载的页面数据有哪些反扒机制 scrapy中接触过几种爬虫的类如何实现分布式流程阅读全文

posted @ 2019-02-28 10:53 丫丫625202 阅读(125) 评论(0) 推荐(0)

UA池和代理池

摘要：编辑本随笔 bobo博客 UA池和代理池均在下载中间件中实现，中间件中实现后需要到setting文件中开启相关中间件 UA池版本不一样，导包位置可能不一样from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware 常阅读全文

posted @ 2019-02-27 10:43 丫丫625202 阅读(387) 评论(0) 推荐(0)

项目案例(爬取网易新闻)

摘要：编辑本随笔 bobo博客案例需求爬取网易新闻基于文字的新闻，板块包括国内、国际、军事、航空等四个板块获取指定板块超链接从页面中提取需要内容此处并未提取到内容，因实际内容是动态加载的，所以直接用xpath解析不出内容 # -*- coding: utf-8 -*- import scrapy 阅读全文

posted @ 2019-02-26 09:09 丫丫625202 阅读(935) 评论(0) 推荐(0)

分布式爬取

摘要：编辑本随笔概念：在多台机器上执行同一个爬虫程序，实现网站数据的分布式爬取原生scrapy不可以实现分布式爬虫，原因如下：分布式爬虫组件：scrapy-redis，该组件可以让scrapy实现分布式。分布式爬取流程：将bind 127.0.0.1注销掉将保护模式改为no，关闭保护模式，即p 阅读全文

posted @ 2019-02-25 17:18 丫丫625202 阅读(373) 评论(0) 推荐(0)

CrawlSpider

摘要：编辑本随笔 CrawlSpider概念：CrawlSpider就是Spider的一个类，功能更加强大。包含链接提取器，规则解析器。代码： # -*- coding: utf-8 -*- import scrapy from scrapy.linkextractors import LinkExtr 阅读全文

posted @ 2019-02-25 16:33 丫丫625202 阅读(319) 评论(0) 推荐(0)

scrapy高级操作

摘要：编辑本随笔一、Scapy核心组件引擎：用来处理整个系统的数据流处理，出发事物管道：负责处理爬虫从网页上提取的实体信息，主要是持久化和验证实体的有效性，清楚不需要的信息。调度器：接受引擎发过来的请求，由它决定下一个要爬取的网址，去处重复网址下载器：下载网页内容，将网页发回给蜘蛛，scrapy 阅读全文

posted @ 2019-02-22 11:05 丫丫625202 阅读(593) 评论(0) 推荐(0)

scrapy多url爬取

摘要：编辑本随笔一、单页面爬取 class QiubaibypagesItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() author = scrapy.Field() conte 阅读全文

posted @ 2019-02-20 09:39 丫丫625202 阅读(1505) 评论(0) 推荐(0)

scrapy基础使用

摘要：编辑本随笔简介： Scrapy：为了爬去网站数据而编写的一款应用框架，即集成了相应功能且具有很强通用性的项目模板。功能：安装：linux用pip install scrapy安装即可，win安装查找其他资料基础使用： 1.创建一个工程命令：scrapy startproject first 阅读全文

posted @ 2019-02-19 14:20 丫丫625202 阅读(301) 评论(0) 推荐(0)

selenuim

摘要：编辑本随笔 selenum打开浏览器进行操作：可以实现让浏览器完成自动化操作使用步骤：环境搭建，安装selenum。pip install selenium 获取浏览器的驱动程序，下载地址，另一个下载地址，浏览器与驱动版本对应关系环境搭建，安装selenum。pip install sele 阅读全文

posted @ 2019-02-18 18:42 丫丫625202 阅读(265) 评论(0) 推荐(0)

数据解析

摘要：编辑本随笔爬虫步骤：数据解析的三种方式：项目一、正则解析 #需求：使用正则对糗事百科中的图片进行解析和下载操作 import requests import re import os #指定url url="https://www.qiushibaike.com/pic/" #自定义heade 阅读全文

posted @ 2019-02-18 13:51 丫丫625202 阅读(248) 评论(0) 推荐(0)

链接打码平台

摘要：编辑本随笔 1、手动识别 2、打码平台自动识别验证码对携带验证码的的页面数据进行抓取可以将页面数据中验证码进行解析，将验证码图片下载到本地打码兔平台：云打码平台：注册开发者账号和普通账号登录开发者账号，下载事例代码（开发文档-调用示例及最新DELL），点击PythonHTTP示例下载创阅读全文

posted @ 2019-02-18 09:56 丫丫625202 阅读(1701) 评论(0) 推荐(0)

requests模块高级使用

摘要：编辑本随笔一、Cookie cookie作用：服务器使用cookie来记录客户端的状态信息实现流程：执行登陆操作（获取cookie）在发起个人主页请求时，需要将cookie携带到该请求中注意：session对象，也可以发送请求，如果服务器端会给客户端返回cookie，session对象自动阅读全文

posted @ 2019-02-14 17:32 丫丫625202 阅读(175) 评论(0) 推荐(0)

request模块

摘要：编辑本随笔一、request模块简介 python原生基于网络请求的模块，模拟浏览器发起请求。 urllib需要手动处理url编码，使用quote()处理中文编码 urllib需要手动处理post请求的参数，将请求参数封装到字典后用urlencode()处理，在用encode()进行编码 urll 阅读全文

posted @ 2019-02-12 17:26 丫丫625202 阅读(262) 评论(0) 推荐(0)

丫丫625202

随笔分类 - python笔记

公告