爬虫

pip3 install requests
pip3 install bs4
pip3 install lxml
pip3 install aiohttp
pip3 install selenium

bs4 对象实例化

from bs4 import BeautifulSoup

将本地的HTML文档中的数据加载到bs4中

fp = open('./html/hzp.html','r',encoding='utf-8')
soup = BeautifulSoup(fp,'lxml')

soup.tagName:返回的是文档中第一次出现的tagName对应的标签

print(soup.a)

soup.find('tagName') 等同于soup.div

soup.find('div',class_='song') 返回class=song所包含的列表

soup.find_all('div') :返回符合要求的所有标签列表

soup.select('.tang > ul > li > a'): >表示的是一个层级

soup.select('.tang > ul a') 空格表示多个层级

soup.a.text/string/get_text() 获取标签内容 text/get_text()返回的是所有文本内容 string()只能获取标签直系文本内容

soup.a['href'] 获取属性值

posted @ 2020-12-01 17:07  zybyekai  阅读(83)  评论(0)    收藏  举报