12 2019 档案

摘要:引入 ​ 数据库称为数据管理系统,这个数据管理系统我们称之为DBMS,DB(database)就是数据库的意义,M(manage)就是管理的意思,S(system)就是系统的意思,其实就是英文名的首字符缩写。市场上冒出了很多优秀的数据库管理系统,例如:mysql、oracle、db2等等,人家开发好 阅读全文
posted @ 2019-12-30 22:06 adrian-boy 阅读(353) 评论(0) 推荐(0)
摘要:进程通信 队列 进程彼此之间互相隔离,要实现进程间通信(IPC),multiprocessing模块支持两种形式:队列和管道,这两种方式都是使用消息传递的。队列就像一个特殊的列表,但是可以设置固定长度,并且从前面插入数据,从后面取出数据,先进先出。 队列的方法介绍 队列的简单使用 子进程和主进程通过 阅读全文
posted @ 2019-12-27 13:56 adrian-boy 阅读(178) 评论(0) 推荐(0)
摘要:进程同步 通过刚刚的学习,我们千方百计实现了程序的异步,让多个任务可以同时在几个进程中并发处理,他们之间的运行没有顺序,一旦开启也不受我们控制。尽管并发编程让我们能更加充分的利用IO资源,但是也给我们带来了新的问题:进程之间数据不共享,但是共享同一套文件系统,所以访问同一个文件,或同一个打印终端,是 阅读全文
posted @ 2019-12-27 13:51 adrian-boy 阅读(236) 评论(0) 推荐(0)
摘要:进程的创建 进程创建的两种方式 方式1 (推荐) 方式2 (了解) 子进程和主进程 我们通过主进程创建的子进程是异步执行的,那么我们就验证一下,并且看一下子进程和主进程(也就是父进程)的ID号(讲一下pid和ppid,使用pycharm举例),来看看是否是父子关系。 结果 进程之间是空间隔离的 进程 阅读全文
posted @ 2019-12-27 13:49 adrian-boy 阅读(316) 评论(0) 推荐(0)
摘要:引入 从今天开始,我们步入了并发编程的内容,比如下载图片,按照之前的方式来做的话,一个图片下载完再下载另外一个图片,导致效率比较低,有了并发,我们就可以一下子同时对多个图片进行下载,效率会提高很多,学习并发编程,我们首先做一些简单的操作系统介绍。 操作系统的作用 隐藏丑陋复杂的硬件接口,提供良好的抽 阅读全文
posted @ 2019-12-27 13:37 adrian-boy 阅读(185) 评论(0) 推荐(0)
摘要:学习saltstack 服务器批量管理 1、saltstack 简介 SaltStack是一个开源的、新的基础平台管理工具,使用Python语言开发,同时提供Rest API方便二次开发以及和其他运维管理系统进行集成。相对于出道比较早的Puppet,SaltStack先天的优势就是简单、易用,可以非 阅读全文
posted @ 2019-12-26 11:28 adrian-boy 阅读(595) 评论(0) 推荐(0)
摘要:RPC之远程过程调用 1、概念: ​ RPC(Remote Procedure Call)远程过程调用,简单的理解是一个节点请求另一个节点提供的服务 2、RPC架构的作用 RPC 的主要目标是让构建分布式计算(应用)更容易、透明,在提供强大的远程调用能力时不损失本地调用的语义简洁性。为实现该目标,R 阅读全文
posted @ 2019-12-26 11:27 adrian-boy 阅读(539) 评论(0) 推荐(0)
摘要:消息队列之rabbitmq学习使用 1、RabbitMQ简介 1.1、什么是RabbitMQ? RabbitMQ是一个开源的消息代理和队列服务器,用来通过普通协议在完全不同的应用之间共享数据,RabbitMQ是使用Erlang语言来编写的,并且RabbitMQ是基于 AMQP协议的。 1.2、Rab 阅读全文
posted @ 2019-12-26 11:25 adrian-boy 阅读(257) 评论(0) 推荐(0)
摘要:crm项目部署流程笔记 1.创建一个新的虚拟环境,用于运行crm新业务 2.解决代码的模块依赖 3.安装uwsgi工具,启动crm 查看 的版本: 4.使用uwsgi的配置文件,启动crm项目 手动创建uwsgi的配置文件 下边是文件配置内容: 5.启动uwsgi的命令 6.配置nginx,进行静态 阅读全文
posted @ 2019-12-20 21:47 adrian-boy 阅读(459) 评论(0) 推荐(0)
摘要:vue+drf的前后端分离部署笔记 前端部署过程 端口划分: 1.获取前端代码 2.解压缩,准备编译前端代码 3.下node源码,配置nodejs编译环境 4.配置nodejs的环境变量 5.安装vue代码所需的模块 6.修改vue的数据提交地址,修改如下配置文件 7.执行安装模块的命令 8.生成了 阅读全文
posted @ 2019-12-20 21:46 adrian-boy 阅读(2093) 评论(0) 推荐(2)
摘要:Windows下的python虚拟环境设置: virtualenv 在python开发中,我们可能会遇到一种情况:就是当前的项目依赖的是某一个版本,但是另一个项目依赖的是另一个版本,这样就会造成依赖冲突。在这种情况之下,我们就需要一个工具能够将这两种或几种不同版本的环境隔离开来,需要哪个版本就切换到 阅读全文
posted @ 2019-12-16 16:20 adrian-boy 阅读(1477) 评论(0) 推荐(0)
摘要:pandas高级操作 替换操作 替换操作可以同步作用于Series和DataFrame中 单值替换 普通替换: 替换所有符合要求的元素:to_replace=15,value='e' 按列指定单值替换: to_replace={列标签:替换值} value='value' 多值替换 列表替换: to 阅读全文
posted @ 2019-12-14 15:52 adrian-boy 阅读(597) 评论(0) 推荐(1)
摘要:plt.plot()绘制线性图 绘制单条线形图 绘制多条线形图 设置坐标系的比例plt.figure(figsize=(a,b)) 设置图例legend() 设置轴的标识 图例保存 fig = plt.figure() plt.plot(x,y) figure.savefig() 曲线的样式和风格 阅读全文
posted @ 2019-12-14 15:49 adrian-boy 阅读(473) 评论(0) 推荐(0)
摘要:级联操作 pd.concat, pd.append pandas使用pd.concat函数,与np.concatenate函数类似,只是多了一些参数: 匹配级联 employee group hire_date 0 Bobs Accounting 1998 1 Linda Product 2017 阅读全文
posted @ 2019-12-12 21:10 adrian-boy 阅读(556) 评论(0) 推荐(0)
摘要:为什么学习pandas numpy已经可以帮助我们进行数据的处理了,那么学习pandas的目的是什么呢? numpy能够帮助我们处理的是数值型的数据,当然在数据分析中除了数值型的数据还有好多其他类型的数据(字符串,时间序列),那么pandas就可以帮我们很好的处理除了数值型的其他数据! 什么是pan 阅读全文
posted @ 2019-12-11 21:54 adrian-boy 阅读(1249) 评论(0) 推荐(0)
摘要:重点 索引和切片 级联 聚合操作 统计操作 矩阵 什么是数据分析 是把隐藏在一些看似杂乱无章的数据背后的信息提炼出来,总结出所研究对象的内在规律 数据分析是用适当的方法对收集来的大量数据进行分析,帮助人们做出判断,以便采取适当的行动 商品采购量的多少 总部向各个地区代理的发货量 为什么学习数据分析 阅读全文
posted @ 2019-12-11 20:27 adrian-boy 阅读(2130) 评论(0) 推荐(0)
摘要:增量式 概念:检测网站数据更新的情况。爬取到最新更新出来的数据。 核心:去重 记录表:需要持久化存储。redis中set 记录爬取过的信息 爬取过的电影详情页的url:对应的是深度爬取 数据指纹:对应的非深度爬取(一张页面的数据更新) 数据指纹:一组数据的唯一标识 代码实现: pipelines.p 阅读全文
posted @ 2019-12-11 09:09 adrian-boy 阅读(261) 评论(0) 推荐(0)
摘要:分布式 概念:可以使用多台电脑组件一个分布式机群,让其执行同一组程序,对同一组网络资源进行联合爬取。 原生的scrapy是无法实现分布式 调度器无法被共享 管道无法被共享 基于 scrapy+redis(scrapy&scrapy redis组件)实现分布式 组件作用: 提供可被共享的管道和调度器 阅读全文
posted @ 2019-12-11 09:08 adrian-boy 阅读(1283) 评论(0) 推荐(0)
摘要:CrawlSpider:Spider的一个子类 实现全站数据爬取 实现流程:在终端中执行 链接提取器 可以根据指定的规则(allow=正则)进行链接的提取 Rule规则解析器 将链接提取器提取到的链接进行请求发送,然后根据指定的规则(callback)进行数据解析 follow=True:将链接提取 阅读全文
posted @ 2019-12-11 09:07 adrian-boy 阅读(172) 评论(0) 推荐(0)
摘要:中间件的使用 作用:拦截所有的请求和响应 拦截请求:process_request拦截正常的请求,process_exception拦截异常的请求 篡改请求的头信息 代理 注意: ,return request的作用是将修正后的请求重新发送 拦截响应 以爬取网易新闻为例 篡改响应数据 不满足需求的响 阅读全文
posted @ 2019-12-11 09:06 adrian-boy 阅读(256) 评论(0) 推荐(0)
摘要:scrapy的大文件下载(基于一种形式的管道类实现) 爬虫类中将解析到的图片地址存储到item,将item提交给指定的管道 在管道文件中导包: 基于 父类,自定义一个管道类 重写管道类中的如下三个方法: settings.py文件中 爬虫文件 阅读全文
posted @ 2019-12-11 09:05 adrian-boy 阅读(491) 评论(0) 推荐(0)
摘要:scrapy框架的使用 基于管道的持久化存储的编码流程 在爬虫文件中数据解析 将解析到的数据封装到一个叫做 类型的对象 将 类型的对象提交给 负责调用 的方法接收 ,然后进行某种形式的持久化存储 在配置文件中开启管道 注意事项: 全栈数据的爬取 手动请求的发送 总结:什么时候用yield 如何发送p 阅读全文
posted @ 2019-12-09 19:49 adrian-boy 阅读(359) 评论(0) 推荐(0)
摘要:scrapy异步的爬虫框架 异步的爬虫框架 高性能的数据解析,持久化存储,全栈数据的爬取,中间件,分布式 框架:就是一个集成好了各种功能且具有很强通用性的一个项目模板。 环境安装: Linux: Windows: 基本使用 新建一个工程: 前提需要将 这个文件放在项目目录下 settings.py: 阅读全文
posted @ 2019-12-08 19:10 adrian-boy 阅读(1060) 评论(0) 推荐(0)
摘要:selenium 概念:基于浏览器自动化的一个模块。 环境的安装: pip install selenium selenium和爬虫之间的关联: 模拟登录 便捷的捕获到动态加载的数据(重点) 特点:可见及可得 缺点:效率低 selenium的具体使用 准备浏览器的驱动程序:http://chrome 阅读全文
posted @ 2019-12-06 21:55 adrian-boy 阅读(223) 评论(0) 推荐(0)
摘要:开启线程池: 线程池 asyncio 特殊的函数 协程 任务对象 任务对象绑定 事件循环 from multiprocessing.dummy import Pool map(func,alist): 可以让func回调函数处理alist中的每一个列表元素,这个处理的过程是基于异步。 In [7]: 阅读全文
posted @ 2019-12-06 21:46 adrian-boy 阅读(766) 评论(0) 推荐(0)
摘要:爬取js加密和混淆的例子 url:https://www.aqistudy.cn/html/city_detail.html 分析: 1.点击不同气象指标的选项卡,发现没有相关的请求发送,说明当页面加载出来的时候,所有的气象数据已经加载完毕。 2.数据是否为动态加载 数据是动态加载出来的 3.修改查 阅读全文
posted @ 2019-12-06 21:15 adrian-boy 阅读(357) 评论(0) 推荐(0)
摘要:对 js加密数据进行爬取和解密 分析: 爬取的数据是动态加载 并且我们进行了抓包工具的全局搜索,没有查找到结果 意味着:爬取的数据从服务端请求到的是加密的密文数据 页面每10s刷新一次,刷新后发现数据更新,但是浏览器地址栏的url没有变,说明加载出的数据是由ajax请求到的。 动态加载出来的数据是由 阅读全文
posted @ 2019-12-06 18:18 adrian-boy 阅读(1950) 评论(0) 推荐(0)
摘要:数据解析 re bs4 xpath pyquery(作业) 什么是数据解析,数据解析可以干什么? 概念:就是将一组数据中的局部数据进行提取。 作用:用来实现聚焦爬虫 数据解析的通用原理 问题:html展示的数据可以存储在哪里? 标签之中 属性中 1.标签定位 2.取文本或者取属性 正则实现的数据解析 阅读全文
posted @ 2019-12-04 09:47 adrian-boy 阅读(640) 评论(0) 推荐(0)
摘要:requests模块的基本使用 基于网络请求的模块。 环境的安装:pip install requests 作用:模拟浏览器发起请求 分析requests的编码流程: 1.指定url 2.发起了请求 3.获取响应数据 4.持久化存储 需求:爬取搜狗首页的页面源码数据 需求:简易的网页采集器 上述代码 阅读全文
posted @ 2019-12-02 19:31 adrian-boy 阅读(1257) 评论(0) 推荐(1)