python学习爬虫出现乱码问题解决记
爬取的网页信息出现乱码问题,一般都是网页本身编码的问题。例如百度是GBK编码,在爬取百度数据是一定要注意网页本身编码问题。
如果使用requests.get(url).text方式爬取的网页信息是乱码,类似这种 ¾åº¦ä¸ä¸ï¼ä½ å°±ç¥éç¾åº¦ ">æ°é»å°å¾,获取的数据显示有阴影,需要把先把网页信息转成bytes类型,将.text改成 .content
然后在decode()转码试试。
爬取的网页信息出现乱码问题,一般都是网页本身编码的问题。例如百度是GBK编码,在爬取百度数据是一定要注意网页本身编码问题。
如果使用requests.get(url).text方式爬取的网页信息是乱码,类似这种 ¾åº¦ä¸ä¸ï¼ä½ å°±ç¥éç¾åº¦ ">æ°é»å°å¾,获取的数据显示有阴影,需要把先把网页信息转成bytes类型,将.text改成 .content
然后在decode()转码试试。