随笔分类 - python 运维开发
摘要:一、概述 一般Selenium是在windows系统跑的,但是由于性能问题,需要在linux服务器中运行,效率更高。 这里以centos 7.6系统来演示,如何一步步安装。 二、安装Chrome 下载 访问下载页面:https://www.chrome64bit.com/index.php/goog
阅读全文
摘要:一、概述 Selenium3.8版本以后,已经不支持PhanTomJS了,可以使用谷歌,火狐的无头浏览器来代替PhanTomJS 二、安装 确认版本 使用chrome的无头浏览器,需要下载谷歌驱动chromedriver.exe chromedriver.exe下载 淘宝的镜像下载地址:https:
阅读全文
摘要:一、概述 所谓下载URL图片就是指通过网络图片的URL去用脚本自动获取和下载图片到本地。 这里需要用到第三方库requests,先找到下载的图片地址,比如: http://www.py3study.com/Public/images/article/thumb/random/48.jpg 二、代码实
阅读全文
摘要:一、概述 scrapy-redis简介 scrapy-redis是scrapy框架基于redis数据库的组件,用于scrapy项目的分布式开发和部署。 有如下特征: 1. 分布式爬取 您可以启动多个spider工程,相互之间共享单个redis的requests队列。最适合广泛的多个域名网站的内容爬取
阅读全文
摘要:一、概述 之前利用Scrapy爬取的数据,都是写入在json文件中,现在需要写入到mysql中。 在items.py中,主要有2个字段: class CityItem(scrapy.Item): name = scrapy.Field() url = scrapy.Field() 环境说明 mysq
阅读全文
摘要:一、概述 使用Reuqests-html的render函数,它会在用户目录(默认是~/.pyppeteer/)中下载一个chromium,然后用它来执行JS代码。 执行之后,会下载chromium [W:pyppeteer.chromium_downloader] start chromium do
阅读全文
摘要:一、概述 在上一篇文章中,链接如下:https://www.cnblogs.com/xiao987334176/p/13656055.html 已经介绍了如何使用Splash抓取javaScript动态渲染页面 这里做一下项目实战,以爬取京东商城商品冰淇淋为例吧 环境说明 操作系统:centos 7
阅读全文
摘要:一、概述 Splash是一个javascript渲染服务。它是一个带有HTTP API的轻量级Web浏览器,使用Twisted和QT5在Python 3中实现。QT反应器用于使服务完全异步,允许通过QT主循环利用webkit并发。一些Splash功能: 并行处理多个网页 获取HTML源代码或截取屏幕
阅读全文
摘要:一、概述 在上一篇文章中,简单在浏览器测试了websocket,链接如下:https://www.cnblogs.com/xiao987334176/p/13615170.html 但是,我们最终的效果是web页面上,能够实时输出结果,比如执行一个shell脚本。 以母鸡下蛋的例子,来演示一下,先来
阅读全文
摘要:一、概述 现在Django 3.0附带了对ASGI的支持,将Websockets添加到Django应用中不需要任何额外的依赖关系。 在本文中,您将学习如何通过扩展默认的ASGI应用程序来使用Django处理Websocket。 我们将介绍如何在示例ASGI应用程序中处理Websocket连接,发送和
阅读全文
摘要:一、概述 Kubernetes官方维护的Python客户端client-python, 地址:https://github.com/kubernetes-client/python 安装模块 pip3 install kubernetes 环境说明 操作系统:centos 7.6 k8s版本:1.1
阅读全文
摘要:一、简介 江湖上流传着这么一句话——分析不识潘大师(PANDAS),纵是老手也枉然。Pandas是基于Numpy的专业数据分析工具,可以灵活高效的处理各种数据集,也是我们后期分析案例的神器。它提供了两种类型的数据结构,分别是DataFrame和Series,我们可以简单粗暴的把DataFrame理解
阅读全文
摘要:一、概述 使用 helm 安装 Prometheus Operator。使用 helm 安装后,会在 Kubernetes 集群中创建、配置和管理 Prometheus 集群,chart 中包含多种组件: prometheus-operator prometheus alertmanager nod
阅读全文
摘要:一、概述 高可用性 Elasticsearch 作为一个搜索引擎,我们对它的基本要求就是存储海量数据并且可以在非常短的时间内查询到我们想要的信息。所以第一步我们需要保证的就是 Elasticsearch 的高可用性,什么是高可用性呢?它通常是指,通过设计减少系统不能提供服务的时间。假设系统一直能够提
阅读全文
摘要:一、概述 filebeat和beats的关系 首先filebeat是Beats中的一员。 Beats在是一个轻量级日志采集器,其实Beats家族有6个成员,早期的ELK架构中使用Logstash收集、解析日志,但是Logstash对内存、cpu、io等资源消耗比较高。相比Logstash,Beats
阅读全文
摘要:一、概述 Kibana是一个针对Elasticsearch的开源分析及可视化平台,用来搜索、查看交互存储在Elasticsearch索引中的数据。使用Kibana,可以通过各种图表进行高级数据分析及展示。 环境说明 操作系统:centos 7.6 docker版本:19.03.12 ip地址:192
阅读全文
摘要:一、概述 需要使用docker 安装Logstash,来收集文件/var/log/messages 环境说明 操作系统:centos 7.6 docker版本:19.03.12 ip地址:192.168.31.196 二、安装 下载镜像 docker pull logstash:7.5.1 启动lo
阅读全文
摘要:一、概述 需要在服务器中部署elasticsearch和head插件 环境说明 操作系统:centos 7.6 docker版本:19.03.12 ip地址:192.168.31.190 二、安装 下载镜像 docker pull elasticsearch:7.5.1 docker pull mo
阅读全文
摘要:一、概述 最近在数据分析,需要判断当前时间是否为上班时间:9:00~18:00 二、代码实现 import datetime # 范围时间 d_time = datetime.datetime.strptime(str(datetime.datetime.now().date()) + '9:00'
阅读全文
摘要:一、概述 简介 skywalking是一个开放源码的,用于收集、分析,聚合,可视化来自于不同服务和本地基础服务的数据的可观察的平台,skywalking提供了一个简单的方法来让你对你的分布式系统甚至是跨云的服务有清晰的了解。它更像是一个现代的系统性能管理,特别为分布式系统而设计。 功能 skywal
阅读全文