Python爬虫笔记

爬虫分为四个步骤，首先获取数据，然后解析数据，再提取数据，最后是存储数据

import requests #首先引入requests库
res=requests.get('URL')#向服务器发送了一个请求,把服务器响应结果赋给res，为response对象
res.encoding='gbk' #定义response对象的编码，一般会自己判断不必写，如果错误则补上正确的码表
pic=res.content #获取二进制数据
note=res.text #获取字符串数据
print(res.status_code)检查是否请求成功，成功则为200
k=open('note.txt','a+') #将res.text内容写在note.txt文件末尾
m=open('pic.jpg'或'music.mp3','wb') #以二进制形式生成图片或音频
k.write(pic\note)
k.close() #基本文件读写操作

以上是一般的获取数据的方法，接下来是用 BeautifulSoup 解析数据，从源码入手爬取数据。

import requests
from bs4 import BeautifulSoup #引入bs库
res=requests.get('URL')
soup=BeautifulSoup('字符串数据,可以是res.text'，'html.parser') #解析数据，html.parser是解析器

beautifulsoup 提取数据的两个方法：

find()和 find_all(),find()找到满足条件的首个数据，参数可以是标签和属性，find_all 则是所有符合的数据，生成的自然是一个列表

属性如果是 class，则要在 class 后面加个_防止被编译器识别为关键字。

Tag 对象，提取出的单个数据的类是 Tag，其主要用法有三种：

tag.find()用来提取 tag 中的 tag，由父级标签提取子级标签
tag.text 提取 tag 中的文字，可以忽略标签信息
tag['属性名']提取 tag 中这个属性的值，不过只能仅限这个 tag 的标签，不包含内部标签

posted @ 2023-06-27 14:23 脏猫阅读(45) 评论(0) 收藏举报

刷新页面返回顶部

脏猫

Python爬虫笔记

公告