百度图片抓取
摘要:```py #!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 11/23/2019 4:06 PM # @Author : DeltaT # @File : 百度图片爬虫.py """爬虫下载百度图片""" import re import os import urllib import requests search_kw = inp
阅读全文
python xpath图片爬取
摘要:```py import requests from urllib.request import urlretrieve from lxml import etree headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78
阅读全文
python正则图片爬取
摘要:```py # conding:utf8 import requests import re import time if __name__ == "__main__": # 所有的数据 url = 'http://www.win4000.com/zt/qsmy.html' response = requests.get(url) # with open('./qsmy.html', mode='
阅读全文
Python 下载图片的三种方法
摘要:```pyimport osos.makedirs('./image/', exist_ok=True)IMAGE_URL = "http://image.nationalgeographic.com.cn/2017/1122/20171122113404332.jpg" def urllib_download(): from urllib.request import urlretriev...
阅读全文
动态html,异步加载页面的处理
摘要:Selenium 基本使用 # 导入 webdriverfrom selenium import webdriver# 调用键盘按键操作时需要引入的Keys包from selenium.webdriver.common.keys import Keys# 调用环境变量指定的PhantomJS浏览器创
阅读全文
数据提取
摘要:非结构化数据处理(文本)正则match 方法:从起始位置开始查找,一次匹配# match 方法用于查找字符串的头部(也可以指定起始位置),它是一次匹配,只要找到了一个匹配的结果就返回,而不是查找所有匹配的结果。它的一般使用形式如下:# 其中,string 是待匹配的字符串,pos 和 endpos
阅读全文
股票爬虫
摘要:from selenium import webdriverfrom my_fake_useragent import UserAgentfrom lxml import etree#import jsonimport csv"""序号,股票代码,股票简称,现价(元),涨跌幅(%)"""def se
阅读全文