爬取图片demo

复制代码
#coding=utf-8
import os
import re
import time

import requests

class Tubiao:
    def __init__(self,url):
        self.url =url
        self.headers = {
            "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.3226.400 QQBrowser/9.6.11681.400"
        }

    def get_html(self):
        response = requests.get(url=self.url,headers=self.headers)
        time.sleep(3)
        #解码
        html_page = response.content.decode("GB2312")

        return html_page
        # print(html_page)

    def run(self):
    #遍历图片列表 取出图片
    # os.mkdir('games')   #如果已经建立的此文件夹,那么就不需要再建
        html_page = self.get_html()
        img_list = re.findall(r'http://.{4,70}\.png' , html_page)
        print(len(img_list))
        # print(len(img_list))
        i = 1
        for img_url in img_list:
            img = requests.get(url=img_url,headers=self.headers)
            print(img)
            #打开图片文件夹
            with open('games/手游图标_'+str(i)+'.png', 'wb') as k:
                #以二进制格式写入
                k.write(img.content)
            print(str(i)+'保存成功')
            i += 1
            if i == 11:
                print('已完成')
                break

if __name__ == '__main__':
    tubiao = Tubiao('http://www.pc6.com/awangyou/469_1.html')
    tubiao.run()
复制代码

 

posted @ 2017-08-30 12:40  高贱  阅读(107)  评论(0)    收藏  举报
编辑推荐:
· 一则复杂 SQL 改写后有感
· golang中写个字符串遍历谁不会?且看我如何提升 50 倍
· C# 代码如何影响 CPU 缓存速度?
· 智能桌面机器人:使用 .NET 为树莓派开发 Wifi 配网功能
· C# 模式匹配全解:原理、用法与易错点
阅读排行:
· 《程序员的底层思维》读后感
· 曾经风光无限的 Oracle DBA 已经落伍了吗?
· 一则复杂 SQL 改写后有感
· C# 锁机制全景与高效实践:从 Monitor 到 .NET 9 全新 Lock
· 接口被刷百万QPS,怎么防?
点击右上角即可分享
微信分享提示