Python-爬取360首页(urllib、re)

# 爬取360首页
# 引入urllib模块中的request模块,2种方法

# import urllib.request
from urllib import request

url=r'http://hao.360.com/' #前面加r取消转(养成好的习惯)

#发送请求,获取响应信息
# reponse=urllib.request.urlopen(url).read()
reponse=request.urlopen(url).read() #可以尝试去掉read打印出来的内容

print(reponse) #里面的中文部分显示的为二进制bytes
print(len(reponse))
print(type(reponse))

——————

#使用正则表达式进行数据清洗
from urllib import request
import re

url=r'http://hao.360.com/'

reponse=request.urlopen(url).read().decode() #decode解码 incode编码

pat=r'<title>(.*?)</title>' #用正则表达式清洗数据
data=re.findall(pat,reponse)

print(data) #得出的结果为list
print(data[0])

——————

 

posted @ 2020-05-19 11:35  因家三姑娘  阅读(300)  评论(0)    收藏  举报