随笔分类 - python 运维开发
摘要:一、概述 平台中需要编写接口供第三方调用,需要控制调用频率,需求为5s内调用一次后不得再次调用。 Django官方插件库中有个django-ratelimit插件可以满足要求, django-ratelimit文档地址,很灵活很强大。 官方文档:https://django-ratelimit.re
阅读全文
摘要:一、网页分析 打开Google浏览器,找的有道词典的翻译网页(http://fanyi.youdao.com/) 打开后摁F12打开开发者模式,找Network选项卡,点击Network选项卡,然后刷新一下网页 然后翻译一段文字,随便啥都行(我用的程序员的传统:hello world),然后点击翻译
阅读全文
摘要:处于某些业务需求需要对一些特定的图片增加水印,于是去了解了PIL这个库,可以完美的解决这个问题 实现效果如下 安装模块 pip3 install pillow 具体代码如下 from PIL import Image, ImageDraw, ImageFont imageFile = "./timg
阅读全文
摘要:一、网页分析 打开谷歌翻译链接:https://translate.google.com/ 按F12,点击network。在左侧输入"who are you" 可以看到,请求的链接为: https://translate.google.com/_/TranslateWebserverUi/data/
阅读全文
摘要:一、概述 插入mysql时,如果内容中有引号等特殊符号,会报错,简单的解决方法可以用反斜杠转义,还可以用 pymysql 的方法(pymysql.escape_string)自动转义: 使用举例: c = ''' 北京时间9月20日晚间9点半,智能供应链服务供应商百世集团将在<a class="wt
阅读全文
摘要:一、概述 现有一个wenda1.xlsx文件,内容如下: 需要将faq记录合并为一行,效果如下: 注意:faq记录,每一行用||来拼接。 二、多行转换一行 新建test1.py,内容如下: # !/usr/bin/python3 # -*- coding: utf-8 -*- import xlrd
阅读全文
摘要:一、概述 上一篇文章,已经介绍了Hyperledger Fabric 2.x 环境搭建,参考链接:https://www.cnblogs.com/xiao987334176/p/13969885.html 接下来介绍如何使用它。 二、Hyperledger Fabric Samples github
阅读全文
摘要:一、概述 关于hyperledger fabric架构详解,请参考链接:https://www.cnblogs.com/xiao987334176/p/13969276.html 本文将在一台centos 7.6服务器上,演示如何搭建hyperledger fabric,目前最新版本为:2.2.1
阅读全文
摘要:一、概述 架构 区块链开源实现hyperledger fabric架构详解 hyperledger fabric是区块链中联盟链的优秀实现,主要代码由IBM、Intel、各大银行等贡献,目前v1.1版的kafka共识方式可达到1000/s次的吞吐量。本文中我们依次讨论:区块链的共通特性、fabric
阅读全文
摘要:一、概述 线上有一个mysql,是在docker里面运行的。 关于docker封装mysql镜像,请参考链接:https://www.cnblogs.com/xiao987334176/p/11984692.html 为了避免数据丢失,需要做数据备份,但是不能影响mysql运行。所以这里采用xtra
阅读全文
摘要:一、概述 爬取步骤 第一步:获取视频所在的网页 第二步:F12中找到视频真正所在的链接 第三步:获取链接并转换成机械语言 第四部:保存 二、分析视频链接 获取视频所在的网页 以酷6网为例,随便点击一个视频播放链接,比如:https://www.ku6.com/video/detail?id=udfY
阅读全文
摘要:一、概述 在上一篇文章中,链接如下:https://www.cnblogs.com/xiao987334176/p/13791061.html 已经介绍了pyecharts画一些基本图形,接下来介绍画地图 二、世界地图 from pyecharts import options as opts fr
阅读全文
摘要:一、概述 Charts是一个纯Javascript的图表库,可以流畅的运行在PC和移动设备上,兼容当前绝大部分浏览器,底层依赖轻量级的Canvas类库ZRender,提供直观、生动、可交互、可高度个性化定制的数据可视化图表。ECharts提供了常规的折线图、柱状图、散点图、饼图、K线图,用于统计的盒
阅读全文
摘要:一、概述 简介 Fiddler是位于客户端和服务器端之间的代理,也是目前最常用的抓包工具之一 。它能够记录客户端和服务器之间的所有 请求,可以针对特定的请求,分析请求数据、设置断点、调试web应用、修改请求的数据,甚至可以修改服务器返回的数据,功能非常强大,是web调试的利器。 看到这么多的应用,是
阅读全文
摘要:一、概述 在众多的网站防爬措施中,有一种是根据ip的访问频率进行限制,即在某一时间段内,当某个ip的访问次数达到一定的阀值时,该ip就会被拉黑、在一段时间内禁止访问。 应对的方法有两种: 1. 降低爬虫的爬取频率,避免IP被限制访问,缺点显而易见:会大大降低爬取的效率。 2. 搭建一个IP代理池,使
阅读全文
摘要:一、概述 在之前的文章中,一般是抓取某个页面信息。那么如何抓取一整个网站的信息呢? 想像一下,首先我们需要解析一个网站的首页, 解析出其所有的资源链接(ajax方式或绑定dom事件实现跳转忽略),请求该页面所有的资源链接, 再在资源链接下递归地查找子页的资源链接,最后在我们需要的资源详情页结构化数据
阅读全文
摘要:一、概述 默认Scrapy callback只能接函数名,不能传参数,我如果想给callback传递多个参数呢? 回调方法示例: yield Request(url=self.base_url + 'QueryInfo', headers=self.request_headers, method="
阅读全文
摘要:一、概述 使用情景 在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现,通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在sc
阅读全文
摘要:一、无头模式 from selenium import webdriver from selenium.webdriver.chrome.options import Options # => 引入Chrome的配置 import time # 配置 ch_options = Options() c
阅读全文
摘要:一、概述 Selenium自动化测试工具,可模拟用户输入,选择,提交。 爬虫实现的功能: 输入python,选择地点:上海,北京 >就去爬取上海,北京2个城市python招聘信息 输入会计,选择地址:广州,深圳,杭州 >就去爬取广州,深圳,杭州3个城市会计招聘信息 根据输入的不同,动态爬取结果 二、
阅读全文