随笔分类 -  python爬虫

摘要:##### filelock 用于文件锁定 用于多进程或多线程对同一文件的操作 ###### 用法: ```python from filelock import FileLock lock = FileLock("file.lock") with lock: # Do something with 阅读全文
posted @ 2023-08-03 18:25 向众神祈祷 阅读(538) 评论(0) 推荐(0)
摘要:###### 进程池使用基础 当需要创建的子进程数量不多时,可以直接利用multiprocessing中的Process动态成生多个进程,但如果是上百甚至上千个目标,手动的去创建进程的工作量巨大,此时就可以用到multiprocessing模块提供的Pool方法。 初始化进程池时需要给定最大进程数, 阅读全文
posted @ 2023-06-20 20:29 向众神祈祷 阅读(75) 评论(0) 推荐(0)
摘要:###### 对比 | scrapy | scrapy-redis | | | | | scheduler(调度器) | scheduler(调度器) | | 请求的处理在调度器中处理 | 将数据存放在redis数据库队列中处理 | | Duplication Filter(重复过滤器) | Dup 阅读全文
posted @ 2023-06-17 11:26 向众神祈祷 阅读(50) 评论(0) 推荐(0)
摘要:###### 爬虫步骤 1. 新建项目(scrapy startproject xxx):新建一个新的爬虫项目 2. 制作爬虫(spiders/xxspider.py):制作爬虫开始爬取网页 3. 明确目标(编写items.py):明确你想要抓取的目标 4. 存储内容(pipelines.py):设 阅读全文
posted @ 2023-06-13 21:35 向众神祈祷 阅读(34) 评论(0) 推荐(0)
摘要:##### re 参数: 1. pattern:正则表达式 2. string:要处理的字符串 3. flags:修饰正则的规则 匹配方式: >re.match(pattern,string,flags) :从字符串的起始位置开始返回成功的匹配,匹配不成功返回none。 re.search(patt 阅读全文
posted @ 2023-05-16 21:34 向众神祈祷 阅读(91) 评论(0) 推荐(0)
摘要:1.创建MySQL模块方便使用 ```python import pymysql class MysqlHelps: def __init__(self): self.connect = None self.mouse = None self.connect = pymysql.Connect(ho 阅读全文
posted @ 2023-04-25 19:27 向众神祈祷 阅读(671) 评论(2) 推荐(0)