函数:
其实是一把工具
使用函数的好处:
1、解决代码冗余问题
2、时代吗的结构更加清晰
3、易管理
函数的使用必须遵循:
先定义,后调用。
函数定义语法:
def 函数名(参数一,参数二...):
'''注释: 声明函数'''
逻辑代码
return 返回值
def: defind 定义
函数名:必须看其名知其意
():接收外部传入参数
注释:用来声明函数的作用
return:返回给调用者的值
定义函数的三种形式:
1、无参函数
不需要接收外部传入的参数
2、有参函数
需要接收外部传入的参数
3、空函数
pass
#无参函数
def login():
user = input('请输入用户名:').strip()
pwd = input('请输入密码:').strip()
if user == 'Yuan' and pwd == '222':
print('login successful!')
else:
print('login error!')
#函数地址
print(login)
#函数调用
login()
#有参函数
#username,password 用来接收外部传入的值
def login(username,password):
user = input('请输入用户名:').strip()
pwd = input('请输入密码:').strip()
if user == username and pwd ==password:
print('login successful!')
else:
print('login error!')
#函数调用
#若函数在定义时需要接收参数,调用者必须为其穿传参
login('Yuan','222')
#空函数
'''
ATM:
1、登录
2、注册
3、提现
4、取款
5、转账
6、还款
'''
#登录功能
def login():
#代表什么都不做
pass
#注册功能
def register:
#代表什么都不做
pass
#还款功能
def repay():
pass
函数的参数:
#在定义阶段:x,y称之为形参。
def func(x,y):
print(x,y)
#在调用阶段:10,100称之为实参
def func(10,100)
print(10,100)
位置参数:
必须按照位置一一传参。
#在定义阶段:x,y称之为位置形参
def func(x,y):
print(x,y)
#在调用阶段:10,100称之为位置实参
def func(10,100)
print(10,100)
关键字参数:
#在定义阶段:x,y称之为位置形参
def func(x=20,y=200):
print(x,y)
#在调用阶段:x=10,y=100称之为关键字参数,不能少传,也不能多传。
func(x=10,y=100)
默认参数:
在定义阶段,为参数设置默认值
def foo(x=10,y=200)
print(x,y)
#不传参,则使用默认参数
foo()
#传参,使用传入的参数
foo(200,300)
函数的嵌套定义:
在函数内部定义函数
函数对象:
函数的名称空间:
内置:
Python解析器自带的都称之为“内置名称空间”
全局:
所有顶着头写的变量,函数...都称之为“全名称空间”。
局部:
在函数内部定义的,都称之为“局部名称空间”。
名称空间加载顺序:
内置-->全局-->局部
查找顺序:
局部-->全局-->内置
函数嵌套定义:
def func1():
print('from func1...')
def func2():
pritn('from func2...)
func1()
#函数对象
print(func1)
def f1():
pass
def f2():
pass
dict1 = {'1':f1,'2':f2}
choice = input{'请选择功能编号:'}
if choice == '1':
print(dic1[choice])
dic1[choice]()
elif choice == '2':
print(dic1(choice))
dic1[choice]{}
#名称空间
#函数的嵌套定义
def func1():
x=20
print('from func1...')
print(x)
def func2():
pritn('from func2...)
func1()
一、爬虫原理:
1、什么是互联网?
指的是由一堆网络设备,把一台台的计算机互联到一起,称之为互联网。
2、互联网建立的目的?
互联网建立的目的是为了数据的传递以及数据的共享。
3、什么是数据?
例如淘宝、京东商品基本信息。
东方财富、雪球网的一些证卷投资信息。
4、上网的全过程:
普通用户:
打开浏览器->向目标站点发送请求->获取响应数据->渲染到浏览器中
爬虫用户:
模拟浏览器->向目标站点发送请求->获取响应数据->提取有价值的数据->持久化到数据中
5、浏览器发送的是什么请求?
http协议的请求。
客户端:
浏览器,是一个软件->客户端的IP和端口
服务端:
https://www.baidu.com/
www.baidu->DNS解析->百度服务端IP和端口 发送请求可以可以建立链接获取相应数据
6、爬虫的全过程
-发送请求 (需要请求库:Requests请求,Selenium请求库)
-获取响应数据 (只要向服务器发送请求,请求通过后返回数据)
-解析并提取数据 (需要解析库:re、BeautifulSoup4、Xpath...)
-保存到本地 (文件处理、数据库、MongoDB存储库)
二、Requests请求库:
1、安装与使用
2、基本使用
import requests #导入rquests请求库
#向百度浏览器主页发送请求,获取响应对象
response = requests.get(url='https://www.baidu.com/')
#设置字符编码为 'utf-8'
response.encoding = 'utf-8'
#打印响应文本文字
print(response.txt)
#把响应文本写入本地
with open('baidu.html','w',encoding='utf-8') as f:
f.write(response.txt)
#向视频源地址发送请求
response = requests.get('https://www.baidu.com/')
#打印二进制流,如图片、视频等数据
print(reponse.content)
#保存视频到本地
with open('视频.mp4',‘wb’) as f:
f.write(response.content)
1、先往梨视频主页发送请求
https//www.pearvideo.com/
解析获取所有的视频的ID:
video_1570302
re.findall()
2、获取视频详情页url:
惊险!男子抢上地铁滑倒,就脚进去了
https://www.pearvideo.com/video_1570302
揭秘坎儿井
https://www.pearvideo.com/video_1570107
import requests
import re #正确,用于解析文本数据
#1、先向梨视频主页发送请求
reponse = requests.get('https://www.pearvideo.com/')
#print(response.text)
#re正则匹配获取所有视频id
#参数一:正则匹配规则
#参数二:解析文本
#参数三:匹配模式
3、爬取视频
res_list = re.findall('<a href="video_(.*?)"',response.text,re.S)
#print(res_list)
#拼接每一个视频详情页url
for v_id in res_list:
detail_url = 'https://www.pearvideo.com/video_'+v_id
# print(detail_url)
#对每一个视频详情页发送请求获取视频 频源url
response = requests.get(url = detail_url)
#解析并提取详情页视频url
#视频url
video_url = re.findall('srcUrl="(.*?)"',response.text,re.S)[0]
print(video_url)
#视频名称
video_name = re.findall('<h1 class="video-tt">(.*?)</h1>',response.text,re.S)[0]
print(video_name)
#向视频url发送请求获取视频二进制流
v_response = requests.get(video_url)
with open('%s.mp4' % video_name,'wb') as f:
f.write(v_response.content)
print(video_name,'视频爬取完成')
4、抓包分析
打开浏览器的开发者模式(检查)---->选中network
找到访问的页面后缀 xxx.html(响应文本)
(1)请求url(访问页面地址)
(2)请求方式:
GET:
直接发送请求获取数据
https://www.cnblogs.com/login
(3)响应状态码:
2xx: 成功
3xx:重定向
4xx:找不到资源
5xx:服务器错误
(4)请求头信息:
User-Agent:用户带代理(证明是通过电脑设备及浏览器发送的请求)
Cookies:登录用户真实信息(证明你是目标网站的用户)
Referer:上一次访问的url(证明你是从目标网站跳转过来的)
(5)请求体:
POST请求才会有请求体
From Data
{
'user':'Yuan',
'pwd':'123'
}
爬虫三部曲:
1、发送请求
def get_page(base_url):
response = requests.get(base_url)
return response
2、解析文本
def parse_index(text)
res = re.findall('<div class="item">.*?<em class="">(.*?)</em>.*?<a href="(.*?)">
#print(res)
return res
3、保存数据
def save_data(data):
with open('douban.txt','a',encoding='utf-8') as f:
f.write(data)
4、爬取豆瓣电影
.:从当前位置开始
*:查找所有
?:找到第一个就不找了
.*?:非贪婪匹配
.*:贪婪匹配
(.*?):提取括号内的数值
电影排名、电影url、电影名称、导演-主演-类型、电影评分、评价人数、电影简介
<div class="item">.*?<em class="">(.*?)</em>
.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>
.*?导演:(.*?)</p>.*?<span class="rating num".*?>(.*?)</span>
.*?<span>(.*?)人评价</span>.*?<span class="inq">(.*?)</span>
if _name_ == '_main_':
# num = 10
# base_url = 'https://movie.douban.com/top250?start={}&filter='.foramt(num)
num=0
for line in range(10):
base_url = f'https://movie.douban.com/top250?start={num}&filter='
num +=25
print(base_url)
#发送请求,调用函数
response = get_page(base_url)
#解析文本
movie_list = parse_index(response.text)
#保存数据
#数据的格式化
for movie in movie_list:
#print(movie)
#解压赋值
#电影排名、电影url、电影名称、导演-主演-类型、电影评分、评价人数、电影简介
v_top,v_url,v_name,v_daoyan,v_point,v_num,v_desc = movie
# v_top = movie[0]
# v_url = movie[1]
movie_content = f'''
电影名:{v_top}
电影url:{v_uel}
电影名称:{v_name}
导演主演:{v_daoyan}
电影评分:{v_point}
评价人数:{v_num}
电影简介:{v-desc}
\n
,,,
print(movie_content)
#保存数据
save_data(movie_content)