1、常用数据类型的内置方法
内置方法指的是对当前数据类型修改的功能
list1 = [1,2,3]
list1.append(3)
可以为list1列表末尾追加一个值。
# 最重要
- 需要对数据进行的数据类型
- 列表
内置方法:
append
- 字符串
'财贸学院学生说tank是18岁'
内置方法:
索引取值
切片
长度len
成员运算in\not in
移除空白strip
切分split
lower&upper 大小写
startswith&endswith 判断字符的开头或结尾是否是什么
replace
isdigit-
- 字典
内置方法:
get
2、文件处理
就是对文件进行读写,把产生的数据保存到硬盘中。
c:/爬虫.txt
# 读写文本文件
with open(保存的文件路径,读写模式,encoding='utf-8) as f:
# 读写二进制文件:图片、视频。。。
with open(保存的文件路径,读写模式) as f:
3、爬虫
爬虫基本原理
爬虫指的是爬取数据。
- 什么是上网?
- 普通用户
打开浏览器--->输入网址--->按回车键(往目标网站发送请求)--->
把获取目标网站的数据--->把获取的数据渲染到浏览器上
- 爬虫程序
模拟成浏览器--->往目标站点发送请求获取数据--->
解析并提取想要(有价值)的数据--->保存到本地
爬虫步骤:
1.发送请求 模拟浏览器发送请求--->requests
2.获取数据 (服务器会自动返回数据)
3.解析数据 解析并获取有价值的数据---> re, bs4
4.保存数据 文件处理保存数据--->with open()
- requests模块
爬取盒子电影网视频