the fifth week
python基础入门之正则表达式
正则表达式前戏
while True:
# 1.获取用户输入的手机号
phone_num = input('请输入您的手机号>>>:').strip()
# 2.先判断是否是十一位
if len(phone_num) == 11:
# 3.再判断是否是纯数字
if phone_num.isdigit():
# 4.判断手机号的开头
if phone_num.startswith('13') or phone_num.startswith('15') or phone_num.startswith('17') or phone_num.startswith('18') or phone_num.startswith('19'):
print('手机号码输入正确')
else:
print('手机号开头不对')
else:
print('手机号必须是纯数字')
else:
print('手机号必须是11位')
'''python结合正则实现'''
phone_number = input('please input your phone number: ')
if re.match('^(13|14|15|18)[0-9]{9}$', phone_number):
print('是合法的手机号码')
else:
print('不是合法的手机号码')
通过使用正则表达式,可以:
1.测试字符串内的模式。
例如,可以测试输入字符串,以查看字符串内是否出现电话号码模式或信用卡号码模式。
这称为数据验证。
2.替换文本。
可以使用正则表达式来识别文档中的特定文本,完全删除该文本或者用其他文本替换它。
3.基于模式匹配从字符串中提取子字符串。
可以查找文档内或输入域内特定的文本
字符组
'''字符组默认匹配方式是挨个挨个匹配'''
[0123456789] 匹配0到9任意一个数(全写)
[0-9] 匹配0到9任意一个数(缩写)
[a-z] 匹配26个小写英文字母
[A-Z] 匹配26个大写英文字母
[0-9a-zA-Z] 匹配数字或者小写字母或者大写字母
ps:字符组内所有的数据默认都是或的关系
特殊符号
'''特殊符号默认匹配方式是挨个挨个匹配'''
. 匹配除换行符以外的任意字符
\w 匹配数字、字母、下划线
\W 匹配非数字、非字母、非下划线
\d 匹配数字
^ 匹配字符串的开头
$ 匹配字符串的结尾
两者组合使用可以非常精确的限制匹配的内容
a|b 匹配a或者b(管道符的意思是或)
() 给正则表达式分组 不影响表达式的匹配功能
[] 字符组 内部填写的内容默认都是或的关系
[^] 取反操作 匹配除了字符组里面的其他所有字符
注意上尖号在中括号内和中括号意思完全不同
量词
'''正则表达式默认情况下都是贪婪匹配>>>:尽可能多的匹'''
* 匹配零次或多次 默认是多次(无穷次)
+ 匹配一次或多次 默认是多次(无穷次)
? 匹配零次或一次 作为量词意义不大主要用于非贪婪匹配
{n} 重复n次
{n,} 重复n次或更多次 默认是多次(无穷次)
{n,m} 重复n到m次 默认是m次
ps:量词必须结合表达式一起使用 不能单独出现 并且只影响左边第一个表达式
jason\d{3} 只影响\d
贪婪和非贪婪
"""所有的量词都是贪婪匹配如果想要变为非贪婪匹配只需要在量词后面加问号"""
待匹配的文本
<script>alert(123)</script>
待使用的正则(贪婪匹配)
<.*>
请问匹配的内容
<script>alert(123)</script> 一条
# .*属于典型的贪婪匹配 使用它 结束条件一般在左右明确指定
待使用的正则(非贪婪匹配)
<.*?>
转义符
"""斜杠与字母的组合有时候有特殊含义"""
\n 匹配的是换行符
\\n 匹配的是文本\n
\\\\n 匹配的是文本\\n
ps:如果是在python中使用 还可以在字符串前面加r取消转义
正则表达式实战建议
1.编写校验用户身份证号的正则
^([1-9]\d{16}[0-9x]|[1-9]\d{14})$
2.编写校验邮箱的正则
\w[-\w.+]*@([A-Za-z0-9][-A-Za-z0-9]+\.)+[A-Za-z]{2,14}
3.编写校验用户手机号的正则(座机、移动)
固定电话:[0-9-()()]{7,18}
手机:\w[-\w.+]*@([A-Za-z0-9][-A-Za-z0-9]+\.)+[A-Za-z]{2,14}
4.编写校验用户qq号的正则
[1-9]([0-9]{5,11})
re模块
# while 1:
# phone_num=input('请输入您的手机号>>>:').strip()
# if len(phone_num)==11:
# if not phone_num.isdigit():
# print('手机号必须是纯数字')
# if phone_num.startswith('13') or phone_num.startswith('15') or phone_num.startswith(
# '17') or phone_num.startswith('18') or phone_num.startswith('19'):
# print( print('手机号开头不对'))
# print(print('手机号码输入正确'))
#
# print('手机号必须是11位')
#
import re
res=re.findall('a','jason apple eva')
print(res)#['a', 'a', 'a']# 查找所有符合正则表达式要求的数据 结果直接是一个列表
res=re.finditer('a','jason apple eva')
print(res)#<callable_iterator object at 0x000001FBF213C2E0>迭代器对象## 查找所有符合正则表达式要求的数据 结果直接是一个迭代器对象
res=re.search('a', 'jason apple eva')
print(res)#<re.Match object; span=(1, 2), match='a'>
print(res.group())#a
res=re.match('a', 'ason apple eva')
print(res)#None 匹配字符串的开头 如果不符合后面不用看了<re.Match object; span=(0, 1), match='a'>
print(res.group())#a匹配开头符合条件的数据 一个就结束没有匹配到就会报错
obj=re.compile('\d{3}')
res=obj.findall('23423422342342344')
res2 = obj.findall('asjdkasjdk32423')
print(res,res2)
ret=re.split('[ab]','abcd')#先对a分割得到‘’和‘bcd'再对’‘和’bcd‘
print(ret)
ret=re.sub('\d','H','eva3jason4yuan4',2)#将数字替换成'H',参数2表示只替换2个
print(ret)#evaHjasonHyuan4
ret=re.subn('\d','H','eva3jason4yuan4')# 将数字替换成'H',返回元组(替换的结果,替换了多少次)
print(ret)#('evaHjasonHyuanH', 3)
re模块补充说明
1.分组优先
import re
res=re.findall('www.(baidu|oldboy).com','www.oldboy.com')
print(res)#['oldboy']
res=re.findall('www.(?:baidu|oldboy).com','www.oldboy.com')
res=res[0]
print(res)#www.oldboy.com
res=re.search('www.(baidu|oldboy).com','www.oldboy.com')
print(res.group())#www.oldboy.com
res=re.match('www.(baidu|oldboy).com','www.oldboy.com')
print(res)#<re.Match object; span=(0, 14), match='www.oldboy.com'>
print(res.group())#www.oldboy.com
2.分组别名
res = re.search('www.(?P<content>baidu|oldboy)(?P<hei>.com)', 'www.oldboy.com')
res1=re.search('www.(?P<content>baidu|oldboy)(?P<hei>.com)','www.baidu.cpm')
print(res.group())#www.oldboy.com
print(res.group('content'))#oldboy
print(res.group(0))#www.oldboy.com 0 代表全部组
print(res.group(1))#oldboy 第一组符合要求的值
print(res.group(2))#.com
print(res.group('hei'))#.com
网络爬虫简介
通过编写代码模拟浏览器发送请求获取数据并按照自己指定的要求筛选出想要的数据。
python入门基础之第三方模块
第三方模块的下载与使用
所谓第三方模块,就是别人写的模块,一般功能都比较强大。我们如果想使用第三方模块,第一次必须先下载后面才可以反复使用(等同于内置模块)。
第三方模块的下载方式
- pip工具
注意每个解释器都有pip工具,如果我们的电脑上有多个版本的解释器那么我们在使用pip的时候一定要注意到底用的是哪一个。否则极其容易出现使用的是A版本解释器然后用B版本的pip下载模块。
为了避免pip冲突,我们在使用的时候可以添加对应的版本号
python27 pip2.7
python36 pip3.6
python38 pip3.8
下载第三方模块的句式
pip install 模块名
下载第三方模块临时切换仓库
pip install 模块名 -i 仓库地址
下载第三方模块指定版本(不指定默认是最新版)
pip install 模块名==版本号 -i 仓库地址
- pycharm提供快捷方式

"""
下载第三方模块可能会出现的问题
1.报错并有警告信息
WARNING: You are using pip version 20.2.1;
原因在于pip版本过低 只需要拷贝后面的命令执行更新操作即可
d:\python38\python.exe -m pip install --upgrade pip
更新完成后再次执行下载第三方模块的命令即可
2.报错并含有Timeout关键字
说明当前计算机网络不稳定 只需要换网或者重新执行几次即可
3.报错并没有关键字
面向百度搜索
pip下载XXX报错:拷贝错误信息
通常都是需要用户提前准备好一些环境才可以顺利下载
4.下载速度很慢
pip默认下载的仓库地址是国外的 python.org
我们可以切换下载的地址
pip install 模块名 -i 仓库地址
pip的仓库地址有很多 百度查询即可
清华大学 :https://pypi.tuna.tsinghua.edu.cn/simple/
阿里云:http://mirrors.aliyun.com/pypi/simple/
中国科学技术大学 :http://pypi.mirrors.ustc.edu.cn/simple/
华中科技大学:http://pypi.hustunique.com/
豆瓣源:http://pypi.douban.com/simple/
腾讯源:http://mirrors.cloud.tencent.com/pypi/simple
华为镜像源:https://repo.huaweicloud.com/repository/pypi/simple/
"""
网络爬虫模块之requests模块
requests模块能够模拟浏览器发送网络请求
import requests
# 1.朝指定网址发送请求获取页面数据(等价于:浏览器地址栏输入网址回车访问)
# res=requests.get('http://www.redbull.com.cn/about/branch')
# print(res.content) # 获取bytes类型的网页数据(二进制)
# res.encoding = 'utf8' # 指定编码
# print(res.text) # 获取字符串类型的网页数据(默认按照utf8)
网络爬虫实战之爬取链家二手房数据
import requests
import re
res = requests.get('https://sh.lianjia.com/ershoufang/pudong/')
# print(res.text)
data = res.text
home_title_list = re.findall(
'<a class="" href=".*?" target="_blank" data-log_index=".*?" data-el="ershoufang" data-housecode=".*?" data-is_focus="" data-sl="">(.*?)</a>',
data)
# print(home_title_list)
home_name_list = re.findall('<a href=".*?" target="_blank" data-log_index=".*?" data-el="region">(.*?) </a>', data)
# print(home_name_list)
home_street_list = re.findall(
'<div class="positionInfo"><span class="positionIcon"></span><a href=".*?" target="_blank" data-log_index=".*?" data-el="region">.*? </a> - <a href=".*?" target="_blank">(.*?)</a> </div>',
data)
# print(home_street_list)
home_info_list = re.findall('<div class="houseInfo"><span class="houseIcon"></span>(.*?)</div>', data)
# print(home_info_list)
home_watch_list = re.findall('<div class="followInfo"><span class="starIcon"></span>(.*?)</div>', data)
# print(home_watch_list)
home_total_price_list = re.findall(
'<div class="totalPrice totalPrice2"><i> </i><span class="">(.*?)</span><i>万</i></div>', data)
# print(home_total_price_list)
home_unit_price_list = re.findall(
'<div class="unitPrice" data-hid=".*?" data-rid=".*?" data-price=".*?"><span>(.*?)</span></div>', data)
# print(home_unit_price_list)
home_data = zip(home_title_list, home_name_list, home_street_list, home_info_list, home_watch_list,
home_total_price_list, home_unit_price_list)
with open(r'home_data.txt','w',encoding='utf8') as f:
for data in home_data:
print(
"""
房屋标题:%s
小区名称:%s
街道名称:%s
详细信息:%s
关注程度:%s
房屋总价:%s
房屋单价:%s
"""%data
)
f.write("""
房屋标题:%s
小区名称:%s
街道名称:%s
详细信息:%s
关注程度:%s
房屋总价:%s
房屋单价:%s\n
"""%data)
自动化办公领域之openpyxl模块
1.excel文件的后缀名问题
03版本之前
.xls
03版本之后
.xlsx
2.操作excel表格的第三方模块
xlwt往表格中写入数据、wlrd从表格中读取数据
兼容所有版本的excel文件
openpyxl最近几年比较火热的操作excel表格的模块
03版本之前的兼容性较差
ps:还有很多操作excel表格的模块 甚至涵盖了上述的模块>>>:pandas
3.openpyxl操作
'''学会看官方文档!!!'''
from openpyxl import Workbook
# 创建一个excel文件
wb = Workbook()
# 在一个excel文件内创建多个工作簿
wb1 = wb.create_sheet('学生名单')
wb2 = wb.create_sheet('舔狗名单')
wb3 = wb.create_sheet('海王名单')
# 还可以修改默认的工作簿位置
wb4 = wb.create_sheet('富婆名单', 0)
# 还可以二次修改工作簿名称
wb4.title = '高富帅名单'
wb4.sheet_properties.tabColor = "1072BA"
# 填写数据的方式1
# wb4['F4'] = 666
# 填写数据的方式2
# wb4.cell(row=3, column=1, value='jason')
# 填写数据的方式3
wb4.append(['编号', '姓名', '年龄', '爱好']) # 表头字段
wb4.append([1, 'jason', 18, 'read'])
wb4.append([2, 'kevin', 28, 'music'])
wb4.append([3, 'tony', 58, 'play'])
wb4.append([4, 'oscar', 38, 'ball'])
wb4.append([5, 'jerry', 'ball'])
wb4.append([6, 'tom', 88,'ball','哈哈哈'])
# 填写数学公式
# wb4.cell(row=1, column=1, value=12321)
# wb4.cell(row=2, column=1, value=3424)
# wb4.cell(row=3, column=1, value=23423432)
# wb4.cell(row=4, column=1, value=2332)
# wb4['A5'] = '=sum(A1:A4)'
# wb4.cell(row=8, column=3, value='=sum(A1:A4)')
# 保存该excel文件
wb.save(r'111.xlsx')
"""
openpyxl主要用于数据的写入 至于后续的表单操作它并不是很擅长 如果想做需要更高级的模块pandas
import pandas
data_dict = {
"公司名称": comp_title_list,
"公司地址": comp_address_list,
"公司邮编": comp_email_list,
"公司电话": comp_phone_list
}
# 将字典转换成pandas里面的DataFrame数据结构
df = pandas.DataFrame(data_dict)
# 直接保存成excel文件
df.to_excel(r'pd_comp_info.xlsx')
excel软件正常可以打开操作的数据集在10万左右 一旦数据集过大 软件操作几乎无效
需要使用代码操作>>>:pandas模块
"""
加密模块、subprocess模块与日志
hashlib加密模块
加密
将明文数据处理成密文数据。为什么加密,为了保证数据安全。
判断数据是否加密
已加密的数据,通常表现为毫无规律的一串字符串(字符、数字、符号);密文长度越长,加密算法(数据处理过程)越复杂。
常见的加密算法
MD5、base64、hmac、sha系列
加密算法基本操作
import hashlib #引入模块
1、选择加密算法,如:MD5
MD5=hashlib.md5()
2、传入明文数据
md5.update('不好意思~'.encode('utf8'))
# 一次性传与多次传,只要内容一样,加密后结果就一样
3、获取加密密文
res=MD5.hexdigest()
print(res)
# a015be868d69cf8d6d748f4e6c83029d
#sha1加密
import hashlib
res1=hashlib.sha1()
res1.update('不好意思~'.encode('utf8'))
a=res1.hexdigest()
print(a)
加密算法补充说明
1、加密算法不变,内容如果相同,结果肯定相同。
eg:不好意思~你是个傻瓜~天天笑哈哈
# 一次性传
import hashlib
md5 = hashlib.md5()
# md5.update('不好意思~你是个傻瓜~天天笑哈哈'.encode('utf8'))
res=md5.hexdigest()
print(res)
# d397410d047609ee11ab0ec42587f319
# 分多次传也可以
import hashlib
md5 = hashlib.md5()
md5.update('不好意思'.encode('utf8'))
md5.update('~你是个傻瓜'.encode('utf8'))
md5.update('~天天笑哈哈'.encode('utf8'))
res=md5.hexdigest()
print(res)
# d397410d047609ee11ab0ec42587f319
2、加密之后的结果无法反向解密
只能从明文到密文正向推导,无法从密文到明文反向推导。常见的解密过程其实是提前猜测了很多种结果。
明文————密文(对比)
3、加盐处理
在明文里面添加一些额外的干扰项
# 1.选择加密算法
md5 = hashlib.md5()
# 2.传入明文数据
md5.update('公司设置的干扰项'.encode('utf8'))
md5.update(b'hello python') # 一次性传可以
# 3.获取加密密文
res = md5.hexdigest()
print(res) # e53024684c9be1dd3f6114ecc8bbdddc
4、动态加盐
干扰项随机变化
eg:当前时间、用户名局部
加密实战操作
1、用户密码加密
2、文件安全性校验
3、文件内容一致性校验
4、大文件内容加密,截取部分内容加密
md5 = hashlib.md5()
with open(r'a.txt', 'rb') as f:
for line in f:
md5.update(line)
real_data = md5.hexdigest()
print(real_data) # 29d8ea41c610ee5d1e76dd0a42c7e60a
with open(r'a.txt', 'rb') as f:
for line in f:
md5.update(line)
error_data = md5.hexdigest()
print(error_data) # 738a56b49f24884ba758d1e4ab6ceb74
import os
# 读取文件总大小
res = os.path.getsize(r'a.txt')
# 指定分片读取策略(读几段 每段几个字节) 10 f.seek()
read_method = [0, res // 4, res // 2, res]
# 用f.read(10)读取十个字符
# 读取到最后的位置时需要把光标往前移动
subprocess模块
模拟操作系统终端,执行命令并获取结果。
import subprocess
res=subprocess.popen(
'tasklist',#操作系统要执行的命令
shell=True,#固定配置
stdin=subprocess.PIPE,#输入命令
stdout=subprocess.PIPE,#输出结果
)
print(res.stdout.read())#获取操作系统执行命令之后的正确结果
print(res.stdout.read().decode('gbk'))
print(res.stderr.read())#获取操作系统执行命令之后的错误结果
# 中国电脑windows,cmd默认底层使用gbk
logging日志模块
日志:记录行为举止的操作(史官)
日志五种级别
import logging
logging.debug('debug message')
logging.info('info message')
logging.warning('warning message')
logging.error('error message')
logging.critical('critical message')
日志模块要求
代码无需掌握,但是得会CV并稍加修改。
import logging
file_handler=logging.filehandler(filename='xl.log',mode='a',encoding='utf8')
logging.basicConfig(
format='%(asctime)s-%(name)s-%(levelname)-%(module)s:%(message)s',
datefmt='%Y-%m-%d %H:%M:%S %P',
handlers[file_handler,],
level=logging.error
)
logging.error('你好')
日志的组成

1、产生日志logger
2、过滤日志filter
基本不用,日志产生阶段就可以控制想要的日志内容
3、输出日志handler
4、日志格式format
import logging
#1. 日志的产生(准备原材料)logger对象
logger=logging.getlogger('购物车记录')
#2.日志的过滤(剔除不良品)filter对象>>>:可以忽略,不用使用
#3.日志的产出(成品) handler对象
hd1=logging.FileHandler('a1.log',encoding='utf-8')
#输出到文件中
hd2=logging.FileHandler('a2.log',encoding='utf-8')
#输出到文件中
hd3=logging.StreamHandler()
#输出到终端
# 4.日志的格式(包装) format对象
fm1 = logging.Formatter(
fmt='%(asctime)s - %(name)s - %(levelname)s -%(module)s: %(message)s',
datefmt='%Y-%m-%d %H:%M:%S %p',
)
fm2 = logging.Formatter(
fmt='%(asctime)s - %(name)s: %(message)s',
datefmt='%Y-%m-%d',
)
# 5.给logger对象绑定handler对象
logger.addHandler(hd1)
logger.addHandler(hd2)
logger.addHandler(hd3)
# 6.给handler绑定format对象
hd1.setFormatter(fm1)
hd2.setFormatter(fm2)
hd3.setFormatter(fm1)
# 7.设置日志等级
logger.setLevel(10)# debug
# 8.记录日志
logger.debug('巴拉巴拉巴拉巴拉')
日志的等级


日志配置字典
import logging
import logging.config
# 定义日志输出格式 开始
standard_format = '[%(asctime)s][%(threadName)s:%(thread)d][task_id:%(name)s][%(filename)s:%(lineno)d]' \
'[%(levelname)s][%(message)s]' # 其中name为getlogger指定的名字
simple_format = '[%(levelname)s][%(asctime)s][%(filename)s:%(lineno)d]%(message)s'
# 自定义文件路径
logfile_path = 'a3.log'
LOGGING_DIC = {
'version': 1,
'disable_existing_loggers': False,
'formatters': {
'standard': {
'format': standard_format
},
'simple': {
'format': simple_format
},
},
'filters': {}, # 过滤日志
'handlers': {
# 打印到终端的日志
'console': {
'level': 'DEBUG',
'class': 'logging.StreamHandler', # 打印到屏幕
'formatter': 'simple'
},
# 打印到文件的日志,收集info及以上的日志
'default': {
'level': 'DEBUG',
'class': 'logging.handlers.RotatingFileHandler', # 保存到文件
'formatter': 'standard',
'filename': logfile_path, # 日志文件
'maxBytes': 1024 * 1024 * 5, # 日志大小 5M
'backupCount': 5,
'encoding': 'utf-8', # 日志文件的编码,再也不用担心中文log乱码了
},
},
'loggers': {
# logging.getLogger(__name__)拿到的logger配置
'': {
'handlers': ['default', 'console'], # 这里把上面定义的两个handler都加上,即log数据既写入文件又打印到屏幕
'level': 'DEBUG',
'propagate': True, # 向上(更高level的logger)传递
}, # 当键不存在的情况下 (key设为空字符串)默认都会使用该k:v配置
# '购物车记录': {
# 'handlers': ['default','console'], # 这里把上面定义的两个handler都加上,即log数据既写入文件又打印到屏幕
# 'level': 'WARNING',
# 'propagate': True, # 向上(更高level的logger)传递
# }, # 当键不存在的情况下 (key设为空字符串)默认都会使用该k:v配置
},
}
logging.config.dictConfig(LOGGING_DIC) # 自动加载字典中的配置
# logger1 = logging.getLogger('购物车记录')
# logger1.warning('尊敬的VIP客户 晚上好 您又来啦')
# logger1 = logging.getLogger('注册记录')
# logger1.debug('jason注册成功')
logger1 = logging.getLogger('红浪漫顾客消费记录')
logger1.debug('慢男 猛男 骚男')

浙公网安备 33010602011771号