bs4模块的应用

数据解析原理：
1、标签定位
2、提取标签、标签属性中存储的数据值
bs4进行数据解析原理：
1、实例化一个BeautifulSoup对象，并且将页面源码价值到该对象中
2、通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取
进行环境安装：
pip install bs4
pip install lxml （解析器）
如何实例化BeautifulSoup
from bs4 import BeautifulSoup

对象实例化：
1、将本地的html文档数据加载到该对象当中
fp = open("html","r",encoding="utf-8")
soup = BeautifulSoup(fp,"lxml")
2、将互联网上获取的页面加载到该对象当中
page_text = response.text
soup = BeautifulSoup(page_text,"lxml")
提供的用于数据解析的方法和属性：
soup.tagName:tagName表示html中第一次出现的一组标签
soup.find("tagName"):返回html中第一次出现的一组标签
soup.find("div",class_="song") :根据属性定位
soup.find_all():返回所有的找到的标签
soup.select("某种选择器（id,class,标签选择器）"):.表示类选择器 select返回一个列表 >表示一个层级空格表示多个层级
标签定位到怎么获取标签的文本和属性呢？
获取标签的文本：
如：soup.a.text/string/get_text()
区别：text/get_text():可以获取所有标签中的内容
string:只可以获取该标签的直系内容
获取标签中的属性值：
soup.a["href"]

posted @ 2021-10-28 23:12 听雨潇湘阅读(62) 评论(0) 收藏举报

刷新页面返回顶部

bs4模块的应用

公告