在爬虫爬取过程中,会爬取到一些html转义字符,如· 、 ” 。这些字符出现在字符串中很违和。python3中内置库html可以帮我们完美处理,以下是使用方法。

from html import unescape
html = '说养·自然医学'
html = unescape(html)
print(html)
>>>
'说养·自然医学'
打印结果显示,完美解决。
当然如果要反转义,也很简单,方法如下:
from html import escape
html = '说养·自然医学'
html = escape(html)
print(html)
>>>
'说养·自然医学'
也很完美。

浙公网安备 33010602011771号