Python开发 - 随笔分类(第2页) - 青红*皂了个白

数据分析

摘要：数据分析三剑客：Numpy Pandas Matplotlib 二维数组取值： attr=np.random.randint(0,100,size=(5,6)) attr[[1,2]] #取数组中的1行到2行 atr[0:3] #从第一行到第三行 attr[;,2:4] #从第3列到第4列关于数组阅读全文

posted @ 2019-06-06 11:39 青红*皂了个白阅读(217) 评论(0) 推荐(0)

提高scrapy的爬取效率

摘要：增加并发：默认scrapy开启的线程数为32个，可以适当进行增加，在seeting配置文件中修改councurrent_requests=100 降低日志等级：在运行scrapy运行时，会有大量日志输出，为了减少cpu的使用率，可将日志等级设置为log=error或log=info 禁用cook 阅读全文

posted @ 2019-06-04 12:17 青红*皂了个白阅读(341) 评论(0) 推荐(0)

关于使用selenium鼠标移动加载全部页面数据

摘要：此处采用函数执行鼠标滑动操作，最终完成动态数据的加载（懒加载）原理：设置一个空列表用于存储每次鼠标拖动后的瞬间页面最大高度。每次追加页面的最新高度在每次拖动后，重新去获取一下，当前页面的最大高度如果获取的页面最大高度等于了列表最后的那个最大高度，说明页面到底了，跳出循环。否则会将当前获取的阅读全文

posted @ 2019-06-03 18:22 青红*皂了个白阅读(816) 评论(0) 推荐(0)

scrapy框架之中间件Middleware

摘要：scrapy框架的中间件主要有两个，一个是spiderMiddleware(爬虫中间件)，一个是DownloaderMiddleware(下载中间件) 通常由于在请求对象和相应对象数据在下载中间件就能处理好，一般不会去使用爬虫中间件。下载中间件主要用到的方法有三个： process_request 阅读全文

posted @ 2019-06-03 10:55 青红*皂了个白阅读(329) 评论(0) 推荐(0)

scrapy实现post请求与请求传参

摘要：不推荐使用scrapy框架发送post请求，配置复杂，如果在数据量大的情况下，可以通过如下代码来实现：方法一：就是重写scrapy下面的start_requests方法方法二：将URL链接写在外部，然后手动去发送请求 scrapy.FormRequest(url=url,formdata=da 阅读全文

posted @ 2019-06-01 16:54 青红*皂了个白阅读(9011) 评论(0) 推荐(1)

利用多进程去爬取短视频

摘要：本次目标地址为梨视频：https://www.pearvideo.com/category_59 在实现数据抓取的时候需要注意以下几点：视频资源数据大多数网站都是加密或者隐藏在js文件或者某个文件下面的，很少有在页面能够直接解析到源地址的。在已知视频路径的情况下，避免使用有界面浏览器或者无界面浏阅读全文

posted @ 2019-05-31 23:44 青红*皂了个白阅读(263) 评论(0) 推荐(0)

实现简单的模拟登录网站

摘要：本次登录站点为古诗文网 URL：https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx 对于验证码的解析：采用云打码API接口实现 http://www.yundama.com 主页面阅读全文

posted @ 2019-05-30 23:17 青红*皂了个白阅读(1464) 评论(0) 推荐(0)

爬虫回顾

摘要：爬虫类型：通用爬虫、聚焦爬虫、增量式爬虫在使用fiddler工具抓包时，需要注意下：因为它需要安装证书，在项目请求HTTPS页面是会ssl要求提供安全证书，可能会被拒绝请求可以在发送requests请求时，关闭安全认证，或者暂时关闭fiddler代理。末尾也会提到，这个坑…… 使用 Beauti 阅读全文

posted @ 2019-05-27 10:47 青红*皂了个白阅读(199) 评论(0) 推荐(0)

Anacond的安装与使用

摘要：Anaconda指的是一个开源的Python发行版本，其包含了conda、Python等180多个科学包及其依赖项。 Conda是一个开源的包、环境管理器，可以用于在同一个机器上安装不同版本的软件包及其依赖 Jupyter notebook基于web的交互式计算环境，可以编辑易于人们阅读的文档，用于阅读全文

posted @ 2019-05-27 09:12 青红*皂了个白阅读(665) 评论(0) 推荐(0)

使用openpyxl去操作Excel表格

摘要：对表格的数据写操作：对表格数据的读操作：阅读全文

posted @ 2019-05-26 11:40 青红*皂了个白阅读(303) 评论(0) 推荐(0)

用ansible模块化脚本安装redis(多机同步)

摘要：利用ansible脚本模块化安装redis数据库，实现同步安装多台主机。从安全角度出发，会对Redis配置文件进行修改，所以，会先在控制端主机直接安装，从而获取Redis.conf配置文件 vim /etc/redis.conf 打开并编辑配置文件：修改默认端口号6379为其他端口号。关于访问阅读全文

posted @ 2019-05-25 11:19 青红*皂了个白阅读(1063) 评论(0) 推荐(0)

ansible 中的playbook剧本模块使用

摘要：playbook支持的文件为.yml格式，也支持字典方式key:value 和列表格式 -abc 支持的文件格式为yml yaml 对格式要求比较严格： 1.冒号后面必须有空格 2.等号后面不能有空格 3. -后面也要有空格为了灵活使用.yml配置文件，一般会采用模板输出方式取值 - hosts 阅读全文

posted @ 2019-05-23 23:39 青红*皂了个白阅读(888) 评论(0) 推荐(0)

ansible代码发布系统的配置入门

摘要：ansible属于第三方库，可以通过配置阿里云的镜像实现快速下载安装，它在阿里云的epel模型仓库下在配置阿里源时，为确保正常安装，一定要清空缓存：sudo yum clean all 再执行生成元缓存：sudo yum makecache . 元仓库缓存生成后，就可以安装ansible了：su 阅读全文

posted @ 2019-05-21 22:51 青红*皂了个白阅读(443) 评论(0) 推荐(0)

Celery任务列表执行

摘要：创建计划任务：调用方法执行指定的任务：获取返回值中运行计划的ID 判断计划是否执行完成：启动celery在命令行执行： Celery worker -A s1 -l INFO -P eventlet -c 6 -A:指定要执行的目录 -l: 指定要使用的打印日志级别 -p:指定使用eventl 阅读全文

posted @ 2019-05-20 11:55 青红*皂了个白阅读(1337) 评论(1) 推荐(0)

flask数据迁移之第三方插件实现

摘要：由于flask是基于轻量级的框架，没有向Django那么庞大的功能，因此，其本身无法实现DJango那种migrate数据迁移的方式，鉴于此，flask可以采用第三方的扩展组件来实现。需要添加两个组件flask-script、flask-migrate 添加脚本插件，在脚本插件添加指令集采用pi 阅读全文

posted @ 2019-05-19 17:45 青红*皂了个白阅读(185) 评论(0) 推荐(0)

flask_sqlalchemy配置蓝图与离线脚本使用

摘要：主程序入口manages.py: 项目初始化配置文件_init_.py: 程序在加载前需要指定的配置，及蓝图注册使用会在此处被完成。蓝图的测试代码：创建数据库模型关系类：models.py 阅读全文

posted @ 2019-05-19 10:17 青红*皂了个白阅读(382) 评论(0) 推荐(0)

多对多表间关系

摘要：创建表结构： secondary：指定关系表阅读全文

posted @ 2019-05-18 18:27 青红*皂了个白阅读(122) 评论(0) 推荐(0)

SQLAlchemy对数据库的高级查询操作

摘要：更新：阅读全文

posted @ 2019-05-18 14:45 青红*皂了个白阅读(2426) 评论(0) 推荐(0)

SQLAlchemy对数据库的增删改查操作

摘要：创建指定的数据库表：对数据库中表数据的添加及批量添加操作：单表查询：更新数据：删除数据： ***************************************************************************************************** 阅读全文

posted @ 2019-05-17 16:06 青红*皂了个白阅读(2306) 评论(0) 推荐(0)

使用百度的开发者api接口合成简单的语音

摘要：简单的脚本代码：阅读全文

posted @ 2019-05-08 15:03 青红*皂了个白阅读(440) 评论(0) 推荐(0)

青红*皂了个白

随笔分类 - Python开发

公告