5、第一个爬取网页使用正则解析数据

from urllib import request
import re
# 请求的url
url = "http://www.dfenqi.cn/Product/Index"
# 请求的头文件
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36"
}
# 创建请求对象
req = request.Request(url,headers = headers)
# 创建处理器对象
httpHandler = request.HTTPHandler()
# 创建opener
opener = request.build_opener(httpHandler)
# 发送请求
response = opener.open(req)
# 读取源文件
html = response.read().decode('utf-8')
# 使用正则表达式解析源文件中所有产品的标题
pattern = re.compile(r'<p\s*class="p">([\s\S]*?)</p>')
# 显示产品标题列表
goodsList = pattern.findall(html)
print("产品总个数：%s" % len(goodsList))
# 打印产品标题
for goods in goodsList:
    print(goods)

posted @ 2018-03-21 15:25 toloy 阅读(240) 评论(0) 收藏举报

刷新页面返回顶部

toloy

5、第一个爬取网页使用正则解析数据

公告