python把html渲染成带格式的文本

在Python中,可以使用html2text库将HTML内容转换成纯文本,保留一定的格式。首先需要安装这个库:

pip install html2text
然后使用它的html2text函数将HTML转换为Markdown格式的文本:

import html2text
 
# 示例HTML内容
html_content = """
<h1>标题</h1>
<p>这是一个段落。</p>
<ul>
<li>列表项一</li>
<li>列表项二</li>
</ul>
"""
 
# 创建html2text对象并转换HTML
text_maker = html2text.HTML2Text()
text_maker.ignore_links = True
markdown_text = text_maker.handle(html_content)
 
print(markdown_text)
这段代码会输出:

# 标题
 
这是一个段落。
 
* 列表项一
* 列表项二
请注意,html2text库不能完全还原HTML中的所有标签和样式,它会根据标签转换成相应的Markdown格式文本。

 

posted @ 2024-03-22 10:13  你说夕阳很美  阅读(296)  评论(0)    收藏  举报