html 网页源码解析：bs4中BeautifulSoup

from bs4 import BeautifulSoup

result=requests.request("get","http://www.baidu.com")
result.encoding="utf-8"
print(result.text) 　　　　　　 #获取源码
soup=BeautifulSoup(result.text,"html.parser") 　　　　 #解析html对象，并赋值给soup

soup.title　　　　　　　　#获取网页第一个标签为“title”内容
soup.title.string)　　　　 #获取第一个标签“title”的纯字符串内容
soup.prettify()　　　　　　#获取html网页源码
soup.input["name"]　　　　#获取网页第一个标签为“input”内name的属性
soup.input.name　　　　　　#获取标签为input的名字，其实就是“input”
soup.input.attrs　　　　　　#取网页第一个标签为“input”内所有属性
soup.input["name"]="test" 　　　　 #修改标签内的属性
del soup.input["name"] 　　　　　　 #删除标签内的属性
soup.input["name2"]="wq123" 　　　　#新增标签内的属性
soup.head.contents　　　　　　#获取标签为head的内容
list(soup.head.children) 　　　　 #获取标签为head的内容,与上面一致
list(soup.head.descendants)　　　　　　#获取标签为head的内容(前面与上面一致,加上-1位号为title内容)
soup.head.parent　　　　　　 #获取标签为head父节点所有内容
soup.head.parent.parent　　　　 #获取标签为head父节点的父节点所有内容
soup.head.next_sibling　　　　　　 #获取标签head同级下一个兄弟节点
soup.head.previous_sibling　　　　　　#获取标签head同级上一个兄弟节点
list(soup.head.next_siblings)　　　　　　#获取标签head同级下一个兄弟节点存储为生成器
list(soup.head.previous_siblings)　　　　　　#获取标签head同级上一个兄弟节点存储为生成器
soup.find_all("a",class_="js_a_so")　　　　　　　　#获取标签为a，class属性为"js_a_so"的所有标签对象　　

posted @ 2019-08-02 15:46 WhiteMouse Views(2233) Comments(0) 收藏举报

刷新页面返回顶部

WhiteMouse

html 网页源码解析：bs4中BeautifulSoup

公告