随笔分类 -  Python开发

上一页 1 2 3 4 5 6 ··· 8 下一页
摘要:数据分析三剑客:Numpy Pandas Matplotlib 二维数组取值: attr=np.random.randint(0,100,size=(5,6)) attr[[1,2]] #取数组中的1行到2行 atr[0:3] #从第一行到第三行 attr[;,2:4] #从第3列到第4列 关于数组 阅读全文
posted @ 2019-06-06 11:39 青红*皂了个白 阅读(217) 评论(0) 推荐(0)
摘要:增加并发: 默认scrapy开启的线程数为32个,可以适当进行增加,在seeting配置文件中修改councurrent_requests=100 降低日志等级: 在运行scrapy运行时,会有大量日志输出,为了减少cpu的使用率,可将日志等级设置为log=error或log=info 禁用cook 阅读全文
posted @ 2019-06-04 12:17 青红*皂了个白 阅读(341) 评论(0) 推荐(0)
摘要:此处采用函数执行鼠标滑动操作,最终完成动态数据的加载(懒加载) 原理:设置 一个空列表用于存储每次鼠标拖动后的瞬间页面最大高度。每次追加页面的最新高度 在每次拖动后,重新去获取一下,当前页面的最大高度 如果获取的页面最大高度等于了列表最后的那个最大高度,说明页面到底了,跳出循环。 否则会将当前获取的 阅读全文
posted @ 2019-06-03 18:22 青红*皂了个白 阅读(816) 评论(0) 推荐(0)
摘要:scrapy框架的中间件主要有两个,一个是spiderMiddleware(爬虫中间件),一个是DownloaderMiddleware(下载中间件) 通常由于在请求对象和相应对象数据在下载中间件就能处理好,一般不会去使用爬虫中间件。 下载中间件主要用到的方法有三个: process_request 阅读全文
posted @ 2019-06-03 10:55 青红*皂了个白 阅读(329) 评论(0) 推荐(0)
摘要:不推荐使用scrapy框架发送post请求,配置复杂,如果在数据量大 的情况下,可以通过如下代码来实现: 方法一:就是重写scrapy下面的start_requests方法 方法二:将URL链接写在外部,然后手动去发送请求 scrapy.FormRequest(url=url,formdata=da 阅读全文
posted @ 2019-06-01 16:54 青红*皂了个白 阅读(9011) 评论(0) 推荐(1)
摘要:本次目标地址为梨视频:https://www.pearvideo.com/category_59 在实现数据抓取的时候需要注意以下几点: 视频资源数据大多数网站都是加密或者隐藏在js文件或者某个文件下面的,很少有在页面能够直接解析到源地址的。 在已知视频路径的情况下,避免使用有界面浏览器或者无界面浏 阅读全文
posted @ 2019-05-31 23:44 青红*皂了个白 阅读(263) 评论(0) 推荐(0)
摘要:本次登录站点为古诗文网 URL:https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx 对于验证码的解析:采用云打码API接口实现 http://www.yundama.com 主页面 阅读全文
posted @ 2019-05-30 23:17 青红*皂了个白 阅读(1464) 评论(0) 推荐(0)
摘要:爬虫类型:通用爬虫、聚焦爬虫、增量式爬虫 在使用fiddler工具抓包时,需要注意下:因为它需要安装证书,在项目请求HTTPS页面是会ssl要求提供安全证书,可能会被拒绝请求 可以在发送requests请求时,关闭安全认证,或者暂时关闭fiddler代理。末尾也会提到,这个坑…… 使用 Beauti 阅读全文
posted @ 2019-05-27 10:47 青红*皂了个白 阅读(199) 评论(0) 推荐(0)
摘要:Anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。 Conda是一个开源的包、环境管理器,可以用于在同一个机器上安装不同版本的软件包及其依赖 Jupyter notebook基于web的交互式计算环境,可以编辑易于人们阅读的文档,用于 阅读全文
posted @ 2019-05-27 09:12 青红*皂了个白 阅读(665) 评论(0) 推荐(0)
摘要:对表格的数据写操作: 对表格数据的读操作: 阅读全文
posted @ 2019-05-26 11:40 青红*皂了个白 阅读(303) 评论(0) 推荐(0)
摘要:利用ansible脚本模块化安装redis数据库,实现同步安装多台主机。 从安全角度出发,会对Redis配置文件进行修改,所以,会先在控制端主机直接安装,从而获取Redis.conf配置文件 vim /etc/redis.conf 打开并编辑配置文件: 修改默认端口号6379为其他端口号。 关于访问 阅读全文
posted @ 2019-05-25 11:19 青红*皂了个白 阅读(1063) 评论(0) 推荐(0)
摘要:playbook支持的文件为.yml格式,也支持字典方式key:value 和列表格式 -abc 支持的文件格式为yml yaml 对格式要求比较严格: 1.冒号后面必须有空格 2.等号后面不能有空格 3. -后面也要有空格 为了灵活使用.yml配置文件,一般会采用模板输出方式取值 - hosts 阅读全文
posted @ 2019-05-23 23:39 青红*皂了个白 阅读(888) 评论(0) 推荐(0)
摘要:ansible属于第三方库,可以通过配置阿里云的镜像实现快速下载安装,它在阿里云的epel模型仓库下 在配置阿里源时,为确保正常安装,一定要清空缓存 :sudo yum clean all 再执行生成元缓存:sudo yum makecache . 元仓库缓存生成后,就可以安装ansible了:su 阅读全文
posted @ 2019-05-21 22:51 青红*皂了个白 阅读(443) 评论(0) 推荐(0)
摘要:创建计划任务: 调用方法执行指定的任务: 获取返回值中运行计划的ID 判断计划是否执行完成: 启动celery在命令行执行: Celery worker -A s1 -l INFO -P eventlet -c 6 -A:指定要执行的目录 -l: 指定要使用的打印日志级别 -p:指定使用eventl 阅读全文
posted @ 2019-05-20 11:55 青红*皂了个白 阅读(1337) 评论(1) 推荐(0)
摘要:由于flask是基于轻量级的框架,没有向Django那么庞大的功能,因此,其本身无法实现DJango那种migrate数据迁移的方式,鉴于此,flask可以采用第三方的扩展组件来实现。 需要添加两个组件flask-script、flask-migrate 添加脚本插件,在脚本插件添加指令集 采用pi 阅读全文
posted @ 2019-05-19 17:45 青红*皂了个白 阅读(185) 评论(0) 推荐(0)
摘要:主程序入口manages.py: 项目初始化配置文件_init_.py: 程序在加载前需要指定的配置,及蓝图注册使用会在此处被完成。 蓝图的测试代码: 创建数据库模型关系类:models.py 阅读全文
posted @ 2019-05-19 10:17 青红*皂了个白 阅读(382) 评论(0) 推荐(0)
摘要:创建表结构: secondary:指定关系表 阅读全文
posted @ 2019-05-18 18:27 青红*皂了个白 阅读(122) 评论(0) 推荐(0)
摘要:更新: 阅读全文
posted @ 2019-05-18 14:45 青红*皂了个白 阅读(2426) 评论(0) 推荐(0)
摘要:创建指定的数据库表: 对数据库中表数据的添加及批量添加操作: 单表查询: 更新数据: 删除数据: ***************************************************************************************************** 阅读全文
posted @ 2019-05-17 16:06 青红*皂了个白 阅读(2306) 评论(0) 推荐(0)
摘要:简单的脚本代码: 阅读全文
posted @ 2019-05-08 15:03 青红*皂了个白 阅读(440) 评论(0) 推荐(0)

上一页 1 2 3 4 5 6 ··· 8 下一页