python正则去掉html标签里的css内容
import re
def parse():
# 匹配所有的a标签
link_re = re.compile(r'<a.*?>')
p_re = re.compile(r'<p.*?>')
span_re = re.compile(r'<span.*?>')
font_re = re.compile(r'<font.*?>')
tb_re = re.compile(r'<table.*?>')
tr_re = re.compile(r'<tr.*?>')
td_re = re.compile(r'<td.*?>')
table = '''
<p style="text-indent: 2em; text-align: left;"><span style="font-family: 微软雅黑; font-size: 16px;"><span style="font-family: 微软雅黑; font-size: 16px;"></span>酷热夏日,聚乙烯这位老友足不出户,让您体会冰爽的感觉。进入六月,中国塑料城PE市场受诸多负面因素共同打压,承接5月的低迷走势,继续处于下行通道中,且个别品种跌幅略有放大,成交很不理想。数据不会说谎,目前价格走势由下表可见一斑。<br style="text-indent: 2em; text-align: left;"></span></p>
'''
# match = zh_pattern.search(article_title_en)
table = re.sub(p_re, '<p>', table)
table = re.sub(span_re, '<span>', table)
table = re.sub(tb_re, '<table>', table)
table = re.sub(tr_re, '<tr>', table)
table = re.sub(td_re, '<td>', table)
table = re.sub(font_re, '<font>', table)
print(table)
if __name__ == '__main__':
parse()
执行后输出:
<p><span><span></span>酷热夏日,聚乙烯这位老友足不出户,让您体会冰爽的感觉。进入六月,中国塑料城PE市场受诸多负面因素共同打压,承接5月的低迷走势,继续处于下行通道中,且个别品种跌幅略有放大,成交很不理想。数据不会说谎,目前价格走势由下表 可见一斑。<br style="text-indent: 2em; text-align: left;"></span></p>

浙公网安备 33010602011771号