本地化部署模型供后端调用的平台整体架构梳理;schema自动装配;模型paddle微调准备(PPOCRLabel安装与使用);
1.本地化部署模型供后端调用的平台整体架构梳理;
“模型服务平台”,根路径建议用一个“平台级、模型无关”的名字,而不是具体模型名。
2.schema自动装配;
👉schema自动装配包含创建实例;
👉所以需要缓存,对相同的提示词进行缓存schema防止以后运行久了,创建无数的schema
👉schema 的“锚点”应该只由:字段名 + 类型 + required + 结构 决定
解决了schema的自动装配
然后就是schema的(静态注册)任务
以前:schema_name(静态schema) → SCHEMA_REGISTRY(静态注册) → task config(整个任务流程)
现在:schema_model(动态自动装配schema)→ TaskConfig_factory(动态自动装配TaskConfig) → TaskConfig(整个任务流程,包括 marker、task_mode、model 等)
3.模型paddle微调准备(PPOCRLabel安装与使用);
由于第一次对文本模型进行训练,全部依照文档的流程来:
👉文本检测 Demo 数据的格式准备
PPOCRLabel是一款专为 OCR 任务设计的半自动图形标注工具,它利用内置PP-OCR模型实现数据的自动标注和重新识别。
该工具使用Python3和编写PyQT5,支持矩形框标注、表格标注、不规则文本标注和关键信息标注模式。在 OCR 标注任务中,标签以文件的形式存储txt。
pip install PPOCRLabel # Installation,安装
PPOCRLabel --lang ch # Start in [Normal Mode] for [Detection + Recognition] scenarios,启动以中文方式
👉踩坑PPOCRLabel居然需要安装paddle,我的主机没有显卡,只能下载cpu版本的paddle;
👉还是启动不了,依旧缺少依赖,安装以下依赖后成功启动了;
pip install -U "paddlex[ocr]"
👉PPOCRLabel标注教程参考一下官方文档
https://paddlepaddle.github.io/PaddleX/latest/en/data_annotations/ocr_modules/text_detection_recognition.html#23-annotation-process-for-text-detection-and-text-recognition
浙公网安备 33010602011771号