随笔分类 - python爬虫
摘要:##### filelock 用于文件锁定 用于多进程或多线程对同一文件的操作 ###### 用法: ```python from filelock import FileLock lock = FileLock("file.lock") with lock: # Do something with
阅读全文
摘要:###### 进程池使用基础 当需要创建的子进程数量不多时,可以直接利用multiprocessing中的Process动态成生多个进程,但如果是上百甚至上千个目标,手动的去创建进程的工作量巨大,此时就可以用到multiprocessing模块提供的Pool方法。 初始化进程池时需要给定最大进程数,
阅读全文
摘要:###### 对比 | scrapy | scrapy-redis | | | | | scheduler(调度器) | scheduler(调度器) | | 请求的处理在调度器中处理 | 将数据存放在redis数据库队列中处理 | | Duplication Filter(重复过滤器) | Dup
阅读全文
摘要:###### 爬虫步骤 1. 新建项目(scrapy startproject xxx):新建一个新的爬虫项目 2. 制作爬虫(spiders/xxspider.py):制作爬虫开始爬取网页 3. 明确目标(编写items.py):明确你想要抓取的目标 4. 存储内容(pipelines.py):设
阅读全文
摘要:##### re 参数: 1. pattern:正则表达式 2. string:要处理的字符串 3. flags:修饰正则的规则 匹配方式: >re.match(pattern,string,flags) :从字符串的起始位置开始返回成功的匹配,匹配不成功返回none。 re.search(patt
阅读全文
摘要:1.创建MySQL模块方便使用 ```python import pymysql class MysqlHelps: def __init__(self): self.connect = None self.mouse = None self.connect = pymysql.Connect(ho
阅读全文

浙公网安备 33010602011771号