01-第一个爬虫程序

from urllib.request import urlopen

url = "http://www.baidu.com"
resp = urlopen(url)

with open("mybaidu.html", mode="w", encoding="utf-8") as f:
    f.write(resp.read().decode("utf-8"))

print("over!")

之后会把百度的源代码爬下来,放到一个mybaidu.html文件中。

注意:

open这个函数,默认使用的编码解码方式,是我们平台默认的编码方式,windows是gbk。但是百度默认编码方式是utf-8,因此如果不使用encoding="utf-8"进行转换的话,会出现乱码

posted @ 2021-12-10 22:47  不是孩子了  阅读(77)  评论(0)    收藏  举报