• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录

gisoracle

  • 博客园
  • 联系
  • 订阅
  • 管理

公告

View Post

微信公众号图片抓取

# coding=utf-8
import re
import requests

def spider(paperurl, picpat):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

    response = requests.get(paperurl, headers=headers).text

    pattern = re.compile(picpat)

    data = pattern.findall(response)

    for i in range(0, len(data)):
        picurl = data[i]
        print(picurl)
        write(picurl, i)


def write(picurl, i):
    data = requests.get(picurl).content
    #with open("e:\jpeg\\{}.jpeg".format(i), "wb") as f:
    with open("e:\jpeg\\{}.jpg".format(i), "wb") as f:
        f.write(data)


if __name__ == '__main__':
    paperurl = r"https://mp.weixin.qq.com/s/7huJOS7G4HEZYx1FtOTxIw"
    picpat = r'<img data-ratio="[\s\S]*?" data-src="(.*?)" data-type="jpeg" data-w="[\s\S]*?"'
    #paperurl = r"https://mp.weixin.qq.com/s/8VeDZztRqTP6PeopKv7BjQ"
    #picpat = r'<img data-ratio="[\s\S]*?" data-src="(.*?)" data-type="jpeg" data-w="[\s\S]*?"'
    spider(paperurl, picpat)

 

posted on 2021-03-06 18:57  gisai  阅读(263)  评论(0)    收藏  举报

刷新页面返回顶部
 
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3