Python-爬取360首页(urllib、re)

# 爬取360首页
# 引入urllib模块中的request模块，2种方法

# import urllib.request
from urllib import request

url=r'http://hao.360.com/' #前面加r取消转(养成好的习惯)

#发送请求，获取响应信息
# reponse=urllib.request.urlopen(url).read()
reponse=request.urlopen(url).read() #可以尝试去掉read打印出来的内容

print(reponse) #里面的中文部分显示的为二进制bytes
print(len(reponse))
print(type(reponse))

——————

#使用正则表达式进行数据清洗
from urllib import request
import re

url=r'http://hao.360.com/'

reponse=request.urlopen(url).read().decode() #decode解码 incode编码

pat=r'<title>(.*?)</title>' #用正则表达式清洗数据
data=re.findall(pat,reponse)

print(data) #得出的结果为list
print(data[0])

——————

posted @ 2020-05-19 11:35 因家三姑娘阅读(309) 评论(0) 收藏举报

刷新页面返回顶部

因家三姑娘