正则解析

import requests
import re
import os
if __name__ == '__main__':
    # 创建一个文件夹，用来保存所有的图片
    if not os.path.exists('./qiutuLibs'):
        os.mkdir('./qiutuLibs')

    url = 'https://www.qiushibaike.com/imgrank/'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
    }

    # 使用通用爬虫对url对应的一整张页面进行爬取
    page_text = requests.get(url=url,headers=headers).text

    # 使用聚焦爬虫将页面中所有的图片进行解析/提取
    ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'
    img_src_list = re.findall(ex,page_text,re.S)
    print(img_src_list)
    for src in img_src_list:
        # 拼接出一个完整的图片url
        src = 'https:' + src
        # 请求到了图片的二进制数据
        img_data = requests.get(url=src,headers=headers).content

        #生成图片名称
        img_name = src.split('/')[-1]

        #图片存储的路径
        imgPath = './qiutuLibs/' + img_name

        with open(imgPath,'wb') as fp:
            fp.write(img_data)
            print(img_name,'下载成功！')

import requests
import re
import os
if __name__ == '__main__':
    # 创建一个文件夹，用来保存所有的图片
    if not os.path.exists('./qiutuLibs'):
        os.mkdir('./qiutuLibs')

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
    }

    # 设置一个通用的url模板
    url = 'https://www.qiushibaike.com/imgrank/page/%d/'
    #pageNum = 1

    for pageNum in range(1,4):
        # 对应页码的url
        new_url = format(url%pageNum)

        # 使用通用爬虫对url对应的一整张页面进行爬取
        page_text = requests.get(url=new_url,headers=headers).text

        # 使用聚焦爬虫将页面中所有的图片进行解析/提取
        ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'
        img_src_list = re.findall(ex,page_text,re.S)
        print(img_src_list)
        for src in img_src_list:
            # 拼接出一个完整的图片url
            src = 'https:' + src
            # 请求到了图片的二进制数据
            img_data = requests.get(url=src,headers=headers).content

            #生成图片名称
            img_name = src.split('/')[-1]

            #图片存储的路径
            imgPath = './qiutuLibs/' + img_name

            with open(imgPath,'wb') as fp:
                fp.write(img_data)
                print(img_name,'下载成功！')

posted @ 2020-05-22 12:56 南啾阅读(164) 评论(0) 收藏举报

刷新页面返回顶部

南啾

正则解析

公告