随笔分类 - Python开发
摘要:数据分析三剑客:Numpy Pandas Matplotlib 二维数组取值: attr=np.random.randint(0,100,size=(5,6)) attr[[1,2]] #取数组中的1行到2行 atr[0:3] #从第一行到第三行 attr[;,2:4] #从第3列到第4列 关于数组
阅读全文
摘要:增加并发: 默认scrapy开启的线程数为32个,可以适当进行增加,在seeting配置文件中修改councurrent_requests=100 降低日志等级: 在运行scrapy运行时,会有大量日志输出,为了减少cpu的使用率,可将日志等级设置为log=error或log=info 禁用cook
阅读全文
摘要:此处采用函数执行鼠标滑动操作,最终完成动态数据的加载(懒加载) 原理:设置 一个空列表用于存储每次鼠标拖动后的瞬间页面最大高度。每次追加页面的最新高度 在每次拖动后,重新去获取一下,当前页面的最大高度 如果获取的页面最大高度等于了列表最后的那个最大高度,说明页面到底了,跳出循环。 否则会将当前获取的
阅读全文
摘要:scrapy框架的中间件主要有两个,一个是spiderMiddleware(爬虫中间件),一个是DownloaderMiddleware(下载中间件) 通常由于在请求对象和相应对象数据在下载中间件就能处理好,一般不会去使用爬虫中间件。 下载中间件主要用到的方法有三个: process_request
阅读全文
摘要:不推荐使用scrapy框架发送post请求,配置复杂,如果在数据量大 的情况下,可以通过如下代码来实现: 方法一:就是重写scrapy下面的start_requests方法 方法二:将URL链接写在外部,然后手动去发送请求 scrapy.FormRequest(url=url,formdata=da
阅读全文
摘要:本次目标地址为梨视频:https://www.pearvideo.com/category_59 在实现数据抓取的时候需要注意以下几点: 视频资源数据大多数网站都是加密或者隐藏在js文件或者某个文件下面的,很少有在页面能够直接解析到源地址的。 在已知视频路径的情况下,避免使用有界面浏览器或者无界面浏
阅读全文
摘要:本次登录站点为古诗文网 URL:https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx 对于验证码的解析:采用云打码API接口实现 http://www.yundama.com 主页面
阅读全文
摘要:爬虫类型:通用爬虫、聚焦爬虫、增量式爬虫 在使用fiddler工具抓包时,需要注意下:因为它需要安装证书,在项目请求HTTPS页面是会ssl要求提供安全证书,可能会被拒绝请求 可以在发送requests请求时,关闭安全认证,或者暂时关闭fiddler代理。末尾也会提到,这个坑…… 使用 Beauti
阅读全文
摘要:Anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。 Conda是一个开源的包、环境管理器,可以用于在同一个机器上安装不同版本的软件包及其依赖 Jupyter notebook基于web的交互式计算环境,可以编辑易于人们阅读的文档,用于
阅读全文
摘要:对表格的数据写操作: 对表格数据的读操作:
阅读全文
摘要:利用ansible脚本模块化安装redis数据库,实现同步安装多台主机。 从安全角度出发,会对Redis配置文件进行修改,所以,会先在控制端主机直接安装,从而获取Redis.conf配置文件 vim /etc/redis.conf 打开并编辑配置文件: 修改默认端口号6379为其他端口号。 关于访问
阅读全文
摘要:playbook支持的文件为.yml格式,也支持字典方式key:value 和列表格式 -abc 支持的文件格式为yml yaml 对格式要求比较严格: 1.冒号后面必须有空格 2.等号后面不能有空格 3. -后面也要有空格 为了灵活使用.yml配置文件,一般会采用模板输出方式取值 - hosts
阅读全文
摘要:ansible属于第三方库,可以通过配置阿里云的镜像实现快速下载安装,它在阿里云的epel模型仓库下 在配置阿里源时,为确保正常安装,一定要清空缓存 :sudo yum clean all 再执行生成元缓存:sudo yum makecache . 元仓库缓存生成后,就可以安装ansible了:su
阅读全文
摘要:创建计划任务: 调用方法执行指定的任务: 获取返回值中运行计划的ID 判断计划是否执行完成: 启动celery在命令行执行: Celery worker -A s1 -l INFO -P eventlet -c 6 -A:指定要执行的目录 -l: 指定要使用的打印日志级别 -p:指定使用eventl
阅读全文
摘要:由于flask是基于轻量级的框架,没有向Django那么庞大的功能,因此,其本身无法实现DJango那种migrate数据迁移的方式,鉴于此,flask可以采用第三方的扩展组件来实现。 需要添加两个组件flask-script、flask-migrate 添加脚本插件,在脚本插件添加指令集 采用pi
阅读全文
摘要:主程序入口manages.py: 项目初始化配置文件_init_.py: 程序在加载前需要指定的配置,及蓝图注册使用会在此处被完成。 蓝图的测试代码: 创建数据库模型关系类:models.py
阅读全文
摘要:创建指定的数据库表: 对数据库中表数据的添加及批量添加操作: 单表查询: 更新数据: 删除数据: *****************************************************************************************************
阅读全文

浙公网安备 33010602011771号