摘要: Pycharm 使用的各种方式方法 1.首次安装后鼠标滚轮调整字体大小设置 步骤:settings>>Editor>>>General>>>MouseControl>>>check first (Change font size with Ctrl+Mouse Wheel) 2.查看代码的前进与后退 阅读全文
摘要: 背景 公司项目使用java构建,服务器使用linux--centos7,项目中使用了众多微服务快速成型,随着时间推移,xxx.jar 每次通过命令启动比较繁琐,本着轻松懒的方式,将这些服务通通制作成系统级别的服务,也就是"systemctl start service_name" ,本人使用pyth 阅读全文
摘要: Python之行--服务监管 背景 针对公司系统平台服务不断增多和复杂化,定位问题效率逐渐下降,实现各个服务统一监管显得越来越重要,在作为运维人员的我管理越来越头疼的时候,我觉得开发自己的监控程序! 动作 首先公司系统使用 java 开发,以微服务体系实现的快速搭建,服务器使用最常用的centos系 阅读全文
摘要: random模块 背景 python的一个随机模块,主要进行随机取值,例如验证码和洗牌功能等... 应用 >>> help(random.random) Help on built-in function random: random(...) method of random.Random ins 阅读全文
摘要: pipenv cmd部署 Pipenv是虚拟环境,它的存在主要是为了解决多个项目之间依赖冲突,避免依赖污染的问题 1. 下载安装 2. 创建虚拟环境 3. 进入虚拟环境(交互模式) 4. 在虚拟环境中下载第三方包 5. 查看环境依赖 6. 解决依赖问题 阅读全文
摘要: Pandas数据处理 删除重复元素 使用duplicated()函数检测重复的行,返回元素为布尔类型的Series对象,每个元素对应一行,如果该行不是第一次出现,则元素为True - keep参数 : 指定保留哪一行重复行的数据 效果如下: 映射 replace() 函数 :替换 使用replace 阅读全文
摘要: 空值清洗 - 处理丢失数据 常见的两种空值数据(丢失数据) None None是python自带的,其类型为python object .因此,None不能参与到任何计算中 np.nan(NaN) np.nan是浮点型,能参与计算,但计算的结果总是NaN pandas中的None 与 NaN 首先创 阅读全文
摘要: 模拟登录 模拟登陆是什么鬼? 有些时候,我们在爬取某些网站内容的时候,网站要求登录后才能操作..,但是处理验证码; 模拟登陆的流程 对登录页面进行请求,从请求的页面源码中解析下载验证码图片 使用打码平台对验证码进行识别 基于登录按钮发起一个post请求(处理参数) 模拟登录的意义和作用 爬取基于某些 阅读全文
摘要: 爬取网站图片 运用requests模块处理url并获取数据,etree中xpath方法解析页面标签,urllib模块urlretrieve保存图片,"iso-8859-1"处理中文乱码 #爬取图片并且处理乱码 import requests from lxml import etree #urlre 阅读全文
摘要: What is 增量式爬虫? 用来 监测 网站数据更新的情况,只会爬取网站中更新出来的新数据 增量式爬虫的核心 去重,因为你爬取到的数据是不可以出现重复的 怎么进行增量式爬取呢? 在发送请求之前判断这个URL是不是之前爬取过 在解析内容后判断这部分内容是不是之前爬取过 写入存储到 redis 时判断 阅读全文
