python学习爬虫出现乱码问题解决记

爬取的网页信息出现乱码问题,一般都是网页本身编码的问题。例如百度是GBK编码,在爬取百度数据是一定要注意网页本身编码问题。

如果使用requests.get(url).text方式爬取的网页信息是乱码,类似这种   ™¾åº¦ä¸€ä¸‹ï¼Œä½ 就知道百度 ">新闻地图,获取的数据显示有阴影,需要把先把网页信息转成bytes类型,将.text改成 .content

然后在decode()转码试试。 

posted @ 2021-02-21 18:40  寻楼艺主  阅读(1003)  评论(0)    收藏  举报