python3 使用 lxml 解析 HTML 时出现中文乱码

python3 使用 lxml 解析 HTML 时出现中文乱码

问题

  • 没有进行编码, 解析中文时乱码
html = etree.parse(html_path, etree.HTMLParser())

解决办法

  • 在指定 parser 的时候对 HTML 进行编码
html = etree.parse(html_path, etree.HTMLParser(encoding="utf-8"))

posted @ 2021-09-16 17:45  苟住,别浪  阅读(594)  评论(0编辑  收藏  举报