08 2019 档案
摘要:常用操作如下: 1. git clone 克隆远程代码到本地; 2. git status 查看本地仓库状态,是否有修改未添加或者未提交; 3. git add . 添加到暂存区; 4. git commit 把暂存区内容提交到当前分支; 5. git diff 版本比较,默认为工作区和当前分支版本
阅读全文
摘要:一、简述面向对象中__new__和__init__区别 __init__是初始化方法,创建对象后,就立刻被默认调用了,可接收参数. 1、__new__至少要有一个参数cls,代表当前类,此参数在实例化时由Python解释器自动识别 2、__new__必须要有返回值,返回实例化出来的实例,这点在自己实
阅读全文
摘要:字符串处理 - ${变量名 替换符号 匹配条件} 从左向右删除 从右向左删除 案例 练习批量修改文件名 : 把当前目录下的.txt文件全部改为.doc文件 shell磨练 1、依次提示用户输入3个整数,脚本根据数字大小依次排序输出 3个数字 2、编写脚本,实现人机<石头,剪刀,布>游戏 shell代
阅读全文
摘要:解释器 shell格式和执行方式 自定义变量 环境变量+位置变量+预设变量 变量赋值 - 接收用户从终端输入的值 Ubuntu设置sudo免密码 shell - 算术运算符 shell - 比较运算符 if分支结构 练习:使用shell编写猜数字游戏,无须循环 for循环 造数 - seq c-fo
阅读全文
摘要:raid0 raid1 raid5的区别 周期性计划任务 文本处理工具 - awk 语法格式:awk 选项 '动作' 文件列表 常用方式:Linux命令 | awk 选项 '动作' 使用方法: grep命令之正则表达式
阅读全文
摘要:常用远程连接工具-xshell # Ubuntu18.04安装ssh服务 sudo apt-get install openssh-server 常用命令 常用服务的端口号 vi及vim使用 关机,重启命令 使用Linux命令必须养成的习惯
阅读全文
摘要:一什么是数据分析? 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 二使用python做数据分析的常用库 numpy 基础数值算法 scipy 科学计算 matplotlib 数据可视化 pandas 序列高级函数 三nump
阅读全文
摘要:一.Python base 一.Python base (一)什么是面向对象 面向对象三大基本特征:封装/继承/多态 1.封装: 分而治之:将一个大的需求分解为许多类,每个类处理一个独立的功能 封装变化:变化的地方独立封装,避免影响其他类 高内聚:每个类完成一个变化点 低耦合:类与类的关联性和依赖度
阅读全文
摘要:定义 异步处理框架,可配置可扩展程度非常高,python中使用最广泛的爬虫框架 安装 Scrapy框架五大组件 scrapy爬虫工作流程 scrapy常用命令 scrapy项目目录结构 全局配置文件settings.py详解 创建爬虫项目步骤 pycharm运行爬虫项目 练习: 目标:打开百度首页,
阅读全文
摘要:特点 网页中嵌套了网页,先切换到iframe子框架,然后再执行其他操作 方法 browser.switch_to.iframe(iframe_element) 示例 - 登录qq邮箱 from selenium import webdriver import time driver = webdri
阅读全文
摘要:chromedriver设置无界面模式 selenium - 键盘操作 selenium - 鼠标操作 selenium - 切换页面 适用网站 页面中点开链接出现新的页面,但是浏览器对象browser还是之前页面的对象 应对方案 民政部网站案例 目标 将民政区划代码爬取到数据库中,按照层级关系(分
阅读全文
摘要:selenium+phantomjs/Chrome/Firefox 一selenium 1.定义 2.安装 二phantomjs浏览器 1.定义 无界面浏览器(又称无头浏览器),在内存中进行页面加载,高效 2.安装(phantomjs、chromedriver、geckodriver) Window
阅读全文
摘要:json.loads(json) 作用:把json格式的字符串转为Python数据类型 示例:html_json = json.loads(res.text) json.dumps(python) 作用:把 python 类型 转为 json 类型 示例: json.load(f) 作用:将json
阅读全文
摘要:cookie模拟登录 1.适用网站几场景 抓取需要登录才能访问的页面 2.cookie和session机制 人人网登录案例 方法一.登录网站手动抓取Cookie import requests class RenRenLogin(object): def __init__(self): # url为
阅读全文
摘要:1. 校验数字的表达式 2. 校验字符的表达式 3. 特殊需求表达式 正则表附图
阅读全文
摘要:应用场景 1、多进程 :CPU密集程序 2、多线程 :爬虫(网络I/O)、本地磁盘I/O 队列 线程模块 小米应用商店抓取(多线程) 目标 实现步骤 1.确认是否为动态加载 2.F12抓取网络数据包 3.代码实现 import requests from threading import Threa
阅读全文
摘要:特点: 抓取: 豆瓣电影数据抓取案例 1.目标 2.F12抓包(XHR) 3.代码实现 import requests import time from fake_useragent import UserAgent class DoubanSpider(): def __init__(self):
阅读全文
摘要:控制台抓包 打开方式几常用选项 requests.post() 1.适用场景 Post类型请求的网站 2.参数-data 3.请求方式特点 有道翻译破解案例(post) 1.目标 2.实现步骤 具体实现 1.开启F2抓包,找到Form表但数据如下: 2.在页面中多翻译几个单词,观察Form表单数据变
阅读全文
摘要:查询参数-params 1.参数类型 字典,字典中键值对作为查询参数 2.使用方法 3.示例 web客户端验证 参数-auth 1.作用类型 2.通过用户名账号密码获取笔记名称案例 思考:爬取具体的笔记文件? SSL证书认证参数-verify 1.适用网站及场景 2.参数类型 代理参数-proxie
阅读全文
摘要:链家二手房案例(xpath) 实现步骤 1.确定是否为静态 打开二手房页面 -> 查看网页源码 -> 搜索关键字 2.xpath表达式 3.实现代码 import requests from lxml import etree import time import random class Lian
阅读全文
摘要:xpath解析 一.定义: XPath即为XML路径语言,它是一种用来确定XML文档中某部分位置的语言,同样适用于HTML文档的检索 二.示例HTML代码 <ul class="CarList"> <li class="bjd" id="car_001" href="http://www.bjd.c
阅读全文
摘要:re模块使用 regex=compile(pattern,flags=0) 功能:生产正则表达式对象 参数:pattern 正则表达式 flags 功能标志位 扩展正则表达式的匹配 返回值:正则表达式对象 一、re.findall(pattern,string,flags=0) 功能:根据正则表达式
阅读全文
摘要:一、基本简介: 1. 定义:即文本的高级匹配模式,提供搜索,替换等功能。其本质是由一系列字符和特殊符号构成的字串,这个字串即正则表达式。 2. 原理:通过普通字符和有特定含义的字符,来组成字符串,用以描述一定的字符串规则,比如:重复,位置等,来表达某类特定的字符串,进而匹配。 3. 目标 熟练掌握正
阅读全文
摘要:索引目录 1.网络爬虫概述 2.爬虫请求模块 3.数据持久化存储 4.requests模块 5.Chrome浏览器安装插件 6.xpath解析.lxml解析库 7.request.get()和代理参数 8.requests.post() 9.动态加载数据抓取-Ajax 10.多线程爬虫 11.coo
阅读全文
摘要:Chrome浏览器安装插件 1.安装方法 2.需要安装插件 爬虫常用插件
阅读全文
摘要:一安装 1.linux sudo pip3 install requests 2.windows 二常用方法 (一)requests.get() 1.作用 2.参数 3.相应对象(res)属性 4.非结构化数据保存 5.示例:保存赵丽颖图片到本地 6.练习
阅读全文
摘要:一数据持久化存储-csv文件 1.作用 将爬取的数据存放到本地的csv文件中 2.使用流程 3.示例代码 创建text.csv文件,在文件中写入数据 练习:猫眼电影数据存入本地 maoyanfilm.csv 文件 - 使用writerow方法实现 思考:使用 writerows()方法实现? imp
阅读全文
摘要:模块名及导入 常用方法详解 (一)urllib.request.urlopen()方法 1.作用 向网站发起请求并获取响应对象 2.参数 3.第一个爬虫程序 打开浏览器,输入百度地址(http://www.baidu.com/),得到百度的响应 4.相应对象(response)方法 思考:网站如何来
阅读全文
摘要:网络爬虫概述 一、定义 网络蜘蛛、网络机器人,抓取网络数据的程序。 其实就是用Python程序模仿人点击浏览器并访问网站,而且模仿的越逼真越好。 二、爬取数据目的 1、获取大量数据,用来做数据分析 2、公司项目的测试数据,公司业务所需数据 三、企业获取数据方式 1、公司自有数据 2、第三方数据平台购
阅读全文
摘要:Redis优点 1、读写速度快. 数据存放在内存中2、支持数据类型丰富,string,hash,list,set,sorted3、支持事务4、可以用于缓存,消息队列,按key设置过期时间,到期后自动删除5、支持数据持久化(将内存数据持久化到磁盘),支持AOF和RDB两种持久化方式,从而进行数据恢复操
阅读全文
摘要:分布式锁 一、高并发产生的问题? 1、购票: 多个用户抢到同一张票? 2、购物: 库存只剩1个,被多个用户成功买到? ... ... 二、怎么办 在不同进程需要互斥地访问共享资源时,分布式锁是一种非常有用的技术手段 三、原理 1、多个客户端先到redis数据库中获取一把锁,得到锁的用户才可以操作数据
阅读全文
摘要:Redis主从复制 一、定义 1、一个Redis服务可以有多个该服务的复制品,这个Redis服务成为master,其他复制品成为slaves 2、master会一直将自己的数据更新同步给slaves,保持主从同步 3、只有master可以执行写命令,slave只能执行读命令('主'负责写,修改,'从
阅读全文
摘要:数据持久化 一持久化定义 将数据从掉电易失的内存放到永久存储的设备上 二为什么需要持久化 因为所有的数据都在内存上,所以必须得持久化 一数据持久化分类之 - RDB模式(默认开启) (一)默认模式 1、保存真实的数据2、将服务器包含的所有数据库数据以二进制文件的形式保存到硬盘里面3、默认文件名 :/
阅读全文
摘要:索引目录 1.Redi介绍 2.数据类型:字符串类型(string) 3.数据类型:列表类型(list) 4.数据类型:Hash散列数据类型 5.数据类型:集合数据类型(set) 6.数据类型:有序集合类型(sorted set) 7.位图操作bitmap 8.数据持久化 9.Redis主从复制
阅读全文
摘要:位图操作bitmap 一定义 1、位图不是真正的数据类型,它是定义在字符串类型中2、一个字符串类型的值最多能存储512M字节的内容,位上限:2^321MB = 1024KB1KB = 1024Byte(字节)1Byte = 8bit(位) 二强势点 可以实时的进行统计,极其节省空间。官方在模拟1亿2
阅读全文
摘要:Hash散列数据类型 一定义 1、由field和关联的value组成的键值对2、field和value是字符串类型3、一个hash中最多包含2^32-1个键值对 二优点 1、节约内存空间2、每创建一个键,它都会为这个键储存一些附加的管理信息(比如这个键的类型,这个键最后一次被访问的时间等)3、键越多
阅读全文
摘要:有序集合sortedset 一特点 1、有序、去重2、元素是字符串类型3、每个元素都关联着一个浮点数分值(score),并按照分支从小到大的顺序排列集合中的元素(分值可以相同)4、最多包含2^32-1元素 示例1:一个保存了水果价格的有序集合 示例2:一个保存了员工薪水的有序集合 示例3:一个保存了
阅读全文
摘要:集合数据类型(set) 一特点 1、无序、去重2、元素是字符串类型3、最多包含2^32-1个元素 二基本命令 python操作set 案例: 新浪微博的共同关注 需求: 当用户访问另一个用户的时候,会显示出两个用户共同关注过哪些相同的用户 设计: 将每个用户关注的用户放在集合中,求交集即可 实现:
阅读全文
摘要:列表数据类型(List) 一、特点 1、元素是字符串类型2、列表头尾增删快,中间增删慢,增删元素是常态3、元素可重复4、最多可包含2^32 -1个元素5、索引同python列表 二、头尾压入元素(LPUSH | RPUSH) 1、LPUSH key value #(left头部压入) 2、RPUSH
阅读全文
摘要:字符串类型(string) 一、特点 1、字符串、数字,都会转为字符串来存储2、以二进制的方式存储在内存中 二、字符串常用命令 必须掌握的命令 作为了解的命令 二、数值操作 1.字符串类型数字(必须掌握) 2.键的命名规范 mset wang:email wangweichao@tedu.cn 3.
阅读全文
摘要:一Redis介绍 (一)特点及有点 (二)与其他数据库对比 (三)应用场景 使用Redis来缓存一些经常被用到、或者需要耗费大量资源的内容,通过这些内容放到redis里面,程序可以快速读取这些内容 一个网站,如果某个页面经常会被访问到,或者创建页面时消耗的资源比较多,比如需要多次访问数据库、生成时间
阅读全文
摘要:一、什么是AJAX Asynchronous Javascript And Xml 异步的 JS 和 Xml (JSON) 异步访问: 当客户端向服务器端发送请求时,服务器在处理的过程中,客户端无需等待,可以做其他操作 AJAX的优点: 1.异步 的 访问方式 2.局部 的 刷新方式 使用场合: 1
阅读全文

浙公网安备 33010602011771号