Python-爬取360首页(urllib、re)
# 爬取360首页
# 引入urllib模块中的request模块,2种方法
# import urllib.request
from urllib import request
url=r'http://hao.360.com/' #前面加r取消转(养成好的习惯)
#发送请求,获取响应信息
# reponse=urllib.request.urlopen(url).read()
reponse=request.urlopen(url).read() #可以尝试去掉read打印出来的内容
print(reponse) #里面的中文部分显示的为二进制bytes
print(len(reponse))
print(type(reponse))
——————
#使用正则表达式进行数据清洗
from urllib import request
import re
url=r'http://hao.360.com/'
reponse=request.urlopen(url).read().decode() #decode解码 incode编码
pat=r'<title>(.*?)</title>' #用正则表达式清洗数据
data=re.findall(pat,reponse)
print(data) #得出的结果为list
print(data[0])
——————

浙公网安备 33010602011771号