Python爬虫XPath解析后保存CSV文件乱码的问题

一般情况是以下这样的:

#xpath解析:

html = etree.HTML(doc,parser=etree.HTMLParser(encoding='utf8'))
#pandas保存:
df.to_csv(pathname+'/xx.csv',line_terminator="\n",index=False,mode='a',encoding='utf8')
但是解析爬取后保存CSV文件一直是乱码,可能是网页中字符串有繁体字的缘故,爬下的网址链接没问题。交替试了多种编码格式才搞定!
以下组合不再乱码:
#xpath:
html = etree.HTML(doc,parser=etree.HTMLParser(encoding='gbk'))
#pandas:
df.to_csv(pathname+'/xx.csv',line_terminator="\n",index=False,mode='a',encoding='gb18030')
posted @ 2021-05-12 16:14  谦谦蚊子  阅读(496)  评论(0)    收藏  举报