#课后小结
#“爬虫”开始爬不动了,看不懂啊
# 一爬虫原理
# 1.什么是互联网?
# 指的是由一堆网络设备,把一台台的计算机互联网到一起称之为互联网。
# 2.互联网建立的目的?
# 互联网建立的目的是为了数据的传递以及数据的共享,
# 3..上网的全过程:
# 一普通用户:
# 打开浏览器一>往目标站点发送请求一>获取响应数据一-> 渲染到浏览器中
# -爬虫程序:
# 模拟浏览器一->往目标站点发送请求一>获取响应数据一>提取有价值的数据一> 持久化到数据中
# 4. .上网的全过程:
# 一普通用户:
# 打开浏览器一>往目标站点发送请求一>获取响应数据一>渲染到浏览器中
# -爬虫程序:
# 模拟浏览器一>往目标站点发送请求一>获取响应数据一>提取有价值的数据一>持久化到数据中
# 5.浏览器发送的是什么请求?
# http协议的请求。
# -客户端:
# 浏览器是一个软件->客户端的IP和端口
# 一服务端
# https : / /www. jd. com/
# www.jd. com (京东域名) -> DNS解析->京东服务端的IP和端口
# 客户端的ip和端口- - - >服务端的 IP和端口发送请求可以建 立链接获取相应数据 。
# 6.爬虫的全过程
# 发送请求
# 获取响应数据 (只要往服务器发送请求,请求通过后会返回响应数据)-解析并提取数据(需要解析库: re、BeautifulSoup4、Xpath...)-保存到本地
# (文件处理、数据库、MongoDB存储库)
# import requests
# response = requests.get(url='http://www.baidu.com/')
# response.encoding = 'utf-8'
# print(response.text)
# with open('baidu.html', 'w', encoding='utf-8')as f:
# f.write(response.text)
# import requests
# response = requests.get('https://video.pearvideo.com/head/20190625/cont-1570107-14056273.mp4')
# print(response.content)
# with open('视频.mp4', 'wb')as f:
# f.write(response.content)
import requests
import re
response = requests.get('https://www.pearvideo.com/')
print(response.text)
res_list=re.findall('<a href="video_(.*?)"',response.text,re.S)
print(res_list)
for v_id in res_list:
detail_url='https://www.pearvideo.com/video'+v_id
print(detail_url)