爬虫日记-基于bs4库的HTML格式化和编码

基于bs4库的HTML格式化和编码

import requests
from bs4 import BeautifulSoup
r=requests.get('https://python123.io/ws/demo.html')
demo=r.text
soup = BeautifulSoup(demo,'html.parser')

print(soup.prettify())

我们之前在讲美味汤的时候,就已经用过一次prettify方法了,那时候没有做讲解,因为我自己都没发现,我不知道那是干什么的,只知道用了那个方法之后,爬取到的html本来是一团的,变成了长长的一条了,看上去清晰了很多。

至于编码,prettify的编码格式是utf8,只要出现了utf8,基本上就没什么好操心的了。即使是中文的内容,他也能打印出来。

posted @ 2019-08-24 09:33  chanyuli  阅读(355)  评论(0编辑  收藏  举报