01-第一个爬虫程序

from urllib.request import urlopen

url = "http://www.baidu.com"
resp = urlopen(url)

with open("mybaidu.html", mode="w", encoding="utf-8") as f:
    f.write(resp.read().decode("utf-8"))

print("over!")

之后会把百度的源代码爬下来，放到一个mybaidu.html文件中。

注意：

open这个函数，默认使用的编码解码方式，是我们平台默认的编码方式，windows是gbk。但是百度默认编码方式是utf-8，因此如果不使用encoding="utf-8"进行转换的话，会出现乱码

posted @ 2021-12-10 22:47 不是孩子了阅读(82) 评论(0) 收藏举报

刷新页面返回顶部

发量不减

01-第一个爬虫程序

公告