Python爬虫XPath解析后保存CSV文件乱码的问题

一般情况是以下这样的：

#xpath解析：

html = etree.HTML(doc,parser=etree.HTMLParser(encoding='utf8'))

#pandas保存：

df.to_csv(pathname+'/xx.csv',line_terminator="\n",index=False,mode='a',encoding='utf8')

但是解析爬取后保存CSV文件一直是乱码，可能是网页中字符串有繁体字的缘故，爬下的网址链接没问题。交替试了多种编码格式才搞定！

以下组合不再乱码：

#xpath：

html = etree.HTML(doc,parser=etree.HTMLParser(encoding='gbk'))

#pandas：

df.to_csv(pathname+'/xx.csv',line_terminator="\n",index=False,mode='a',encoding='gb18030')

posted @ 2021-05-12 16:14 谦谦蚊子阅读(499) 评论(0) 收藏举报

刷新页面返回顶部