python爬虫 - 随笔分类 - CodeCraftsMan

threading线程基础

摘要：目录基本使用start、join自动打分案例基本使用start、join import threading import time def wash_glass(): print("开始洗碗") time.sleep(3) print("洗碗完成") def wash_clothes(): pri 阅读全文

posted @ 2025-04-03 23:20 CodeCraftsMan 阅读(31) 评论(0) 推荐(0)

异步爬取B站热门视频

摘要：目录这里就不讲思路了，有点累了，直接上代码吧！代码写的有点乱，勿喷哈哈哈！ #@author: 袁小黑 #@date: 2025/03/15 import requests import re from tqdm import tqdm import time import json import 阅读全文

posted @ 2025-03-20 15:07 CodeCraftsMan 阅读(131) 评论(0) 推荐(0)

爬取B站单个视频

摘要：目录思路具体代码：思路第一步：第二步：第三步：第四步：具体代码： import requests headers={ 'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537. 阅读全文

posted @ 2025-03-20 15:03 CodeCraftsMan 阅读(250) 评论(0) 推荐(0)

asyncio协程

摘要：目录使用协程重要的几个函数使用异步方法爬取Microsoft Bing图片asyncio.Queue(maxsize=) 说明1：正常的程序都是从上到下依次执行的，如果遇到了要等待的地方，就会阻塞，等待相应的代码执行完毕后，再往下执行。说明2：协程（Coroutine）是一种特殊的函数，它可阅读全文

posted @ 2025-03-17 12:42 CodeCraftsMan 阅读(144) 评论(0) 推荐(0)

爬取Microsoft Bing网站图片

摘要：说明：这个小案例主要是访问Microsoft Bing网站去爬取“车牌”图片,代码写的时候不规范，但是效果还行，更快速的异步爬虫看这个链接：使用python协程爬取图片代码文件结构为下图：具体思路 #main.py #运行函数的入口 from requests import get # imp 阅读全文

posted @ 2025-03-12 13:19 CodeCraftsMan 阅读(584) 评论(0) 推荐(0)

xpath解析html

摘要：安装lxml库 pip install lxml 具体使用方法 from lxml import etree #1. 将本地的html文档中的源码数据加载到etree对象。 etree.parse('file_path') #2. 将从互联网上获取的源码数据加载到etree对象中 etree.HTM 阅读全文

posted @ 2025-03-11 23:27 CodeCraftsMan 阅读(52) 评论(0) 推荐(0)

正则表达式基础

摘要：目录正则表达式常用的元字符常用的函数分组操作：()命名组贪婪模式和非贪婪模式正则表达式正则表达式（Regular Expressions，简称 regex）是一种强大的工具，用于匹配和处理文本。Python 通过 re 模块提供了对正则表达式的支持。下面是一些基本的使用方法：常用的元字符 .: 阅读全文

posted @ 2025-03-11 22:56 CodeCraftsMan 阅读(143) 评论(0) 推荐(0)

爬虫day1

摘要：目录1. get最简单的爬虫2. 带上身份和参数的爬虫3. 使用post进行对json进行爬取 1. get最简单的爬虫使用requests包请求网址，并爬取网址，并获取其中html文件内容 import requests as r url='http://www.baidu.com/' #发起请阅读全文

posted @ 2025-03-11 15:16 CodeCraftsMan 阅读(84) 评论(0) 推荐(0)

CodeCraftsMan

随笔分类 - python爬虫

公告