Python爬虫XPath解析后保存CSV文件乱码的问题
一般情况是以下这样的:
#xpath解析:
html = etree.HTML(doc,parser=etree.HTMLParser(encoding='utf8'))
#pandas保存:
df.to_csv(pathname+'/xx.csv',line_terminator="\n",index=False,mode='a',encoding='utf8')
但是解析爬取后保存CSV文件一直是乱码,可能是网页中字符串有繁体字的缘故,爬下的网址链接没问题。交替试了多种编码格式才搞定!
以下组合不再乱码:
#xpath:
html = etree.HTML(doc,parser=etree.HTMLParser(encoding='gbk'))
#pandas:
df.to_csv(pathname+'/xx.csv',line_terminator="\n",index=False,mode='a',encoding='gb18030')
浙公网安备 33010602011771号