随笔分类 - python爬虫
python爬虫基础
摘要:目录基本使用start、join自动打分案例 基本使用start、join import threading import time def wash_glass(): print("开始洗碗") time.sleep(3) print("洗碗完成") def wash_clothes(): pri
阅读全文
摘要:目录 这里就不讲思路了,有点累了,直接上代码吧!代码写的有点乱,勿喷哈哈哈! #@author: 袁小黑 #@date: 2025/03/15 import requests import re from tqdm import tqdm import time import json import
阅读全文
摘要:目录思路具体代码: 思路 第一步: 第二步: 第三步: 第四步: 具体代码: import requests headers={ 'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.
阅读全文
摘要:目录使用协程重要的几个函数使用异步方法爬取Microsoft Bing图片asyncio.Queue(maxsize=) 说明1: 正常的程序都是从上到下依次执行的,如果遇到了要等待的地方,就会阻塞,等待相应的代码执行完毕后,再往下执行。 说明2: 协程(Coroutine) 是一种特殊的函数,它可
阅读全文
摘要:说明: 这个小案例主要是访问Microsoft Bing网站去爬取“车牌”图片,代码写的时候不规范,但是效果还行,更快速的异步爬虫看这个链接:使用python协程爬取图片 代码文件结构为下图: 具体思路 #main.py #运行函数的入口 from requests import get # imp
阅读全文
摘要:安装lxml库 pip install lxml 具体使用方法 from lxml import etree #1. 将本地的html文档中的源码数据加载到etree对象。 etree.parse('file_path') #2. 将从互联网上获取的源码数据加载到etree对象中 etree.HTM
阅读全文
摘要:目录正则表达式常用的元字符常用的函数分组操作:()命名组贪婪模式和非贪婪模式 正则表达式 正则表达式(Regular Expressions,简称 regex)是一种强大的工具,用于匹配和处理文本。Python 通过 re 模块提供了对正则表达式的支持。下面是一些基本的使用方法: 常用的元字符 .:
阅读全文
摘要:目录1. get最简单的爬虫2. 带上身份和参数的爬虫3. 使用post进行对json进行爬取 1. get最简单的爬虫 使用requests包请求网址,并爬取网址,并获取其中html文件内容 import requests as r url='http://www.baidu.com/' #发起请
阅读全文

浙公网安备 33010602011771号