bs4模块的应用
数据解析原理:
1、标签定位
2、提取标签、标签属性中存储的数据值
bs4进行数据解析原理:
1、实例化一个BeautifulSoup对象,并且将页面源码价值到该对象中
2、通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取
进行环境安装:
pip install bs4
pip install lxml (解析器)
如何实例化BeautifulSoup
from bs4 import BeautifulSoup
对象实例化:
1、将本地的html文档数据加载到该对象当中
fp = open("html","r",encoding="utf-8")
soup = BeautifulSoup(fp,"lxml")
2、将互联网上获取的页面加载到该对象当中
page_text = response.text
soup = BeautifulSoup(page_text,"lxml")
提供的用于数据解析的方法和属性:
soup.tagName:tagName表示html中第一次出现的一组标签
soup.find("tagName"):返回html中第一次出现的一组标签
soup.find("div",class_="song") :根据属性定位
soup.find_all():返回所有的找到的标签
soup.select("某种选择器(id,class,标签选择器)"):.表示类选择器 select返回一个列表 >表示一个层级 空格表示多个层级
标签定位到怎么获取标签的文本和属性呢?
获取标签的文本:
如:soup.a.text/string/get_text()
区别:text/get_text():可以获取所有标签中的内容
string:只可以获取该标签的直系内容
获取标签中的属性值:
soup.a["href"]
浙公网安备 33010602011771号