随笔档案「2026年1月23日」：LLM信息抽取前的预清洗 / 降噪；python中方... - asphyxiasea

2026年1月23日

LLM信息抽取前的预清洗 / 降噪；python中方List与list做泛型的区别；给ai调用平台添加文档解析后处理；

摘要： 1.LLM信息抽取前的预清洗 / 降噪本地部署的小模型（12B等参数）更依赖“表面模式”，大模型更会“忽略干扰”。所以在本地部署的模型在提取文本参数时，要尽量对数据进行降噪。以下是我的一个文本降噪想法： 👉Markdown → 结构化块（section / table） 👉规则过滤：只保留阅读全文

posted @ 2026-01-23 12:05 asphyxiasea 阅读(3) 评论(0) 推荐(0)

VS Code的学习以及使用；linux的pip全局设置镜像；VS Code中Jupyter插件使用；

摘要： VS Code不是传统庞大的编程IDE，而是一个轻量但功能极强的代码编辑器，通过插件可以变成支持任何语言的编程工具。因为 VS Code 是插件驱动型，所以用途几乎无限。例如： pycharm中难以实现的SSH+SSH代理远程开发，在VS Code中能够轻松解决，本地安装Remote - SS 阅读全文

posted @ 2026-01-23 12:03 asphyxiasea 阅读(1) 评论(0) 推荐(0)

SAM3大模型部署+OpenSSH的ProxyJump学习并使用

摘要： 1. SAM3大模型 META旗下的一款大模型SAM3，能够自动、泛化地分割图像或视频中的任意物体。多模态提示（文本、点、框）的图像分割和视频分割。基于Transformer的编码器-解码器，可以处理高分辨率图像，支持多GPU推理。 SAM3大模型部署参考github中SAM3官方代码网站：阅读全文

posted @ 2026-01-23 12:03 asphyxiasea 阅读(2) 评论(0) 推荐(0)

部署dify+docker

摘要： 1. dify的作用方向作用说明本地/自有模型管理可以把 Ollama 或本地 LLM 模型接入 Dify，通过统一界面管理模型、调参和调用。多模型接入支持 OpenAI、Ollama、LLM Hub 等多种模型接口，方便组合使用。低代码应用提供可视化工作流，可以拖拽创建问答、聊天机阅读全文

posted @ 2026-01-23 12:02 asphyxiasea 阅读(1) 评论(0) 推荐(0)

Ollama部署模型；与Conda的区别；部署qwen2.5vl:7b模型

摘要： 1. Ollama 与 Conda 部署模型的区别 Ollama Conda 自动管理推理环境需手动配置环境CUDA+Ptorch等等一条命令启动模型需要写代码加载模型内置量化和优化需要手动配置易于远程访问需自己写服务API接口一句话总结： Ollama = 快速部署、开箱即用的 L 阅读全文

posted @ 2026-01-23 12:02 asphyxiasea 阅读(6) 评论(0) 推荐(0)

WePOINTS模型家族中POINTS-Reader模型部署在公司GPU服务器上所遇到的问题

摘要： 1. POINTS-Reader 模型部署和下载尝试在Linux上使用git直接克隆下载Tencent/POINTS-Reader，但遇到HuggingFace网络问题，git克隆大模型的方法行不通。不要使用git clone方式下载模型，非常不靠谱。使用专用多线程下载器hfd 工具同样支持设阅读全文

posted @ 2026-01-23 12:02 asphyxiasea 阅读(1) 评论(0) 推荐(0)

Ollama的进一步了解；SAM3的API调用；流式输出理解；postman使用（接口测试）；Supervisor进程管理工具部署SAM3至内网；ollama部署后API调用

摘要： 1.Ollama与vLLM Ollama主要应用场景是LLM大模型的部署，不包含图像处理模型，专注于本地化、轻量化部署，通过Docker容器技术简化模型运行流程，用户无需复杂配置即可快速启动模型。其设计目标是降低本地使用LLM的门槛，适合个人开发者或资源有限的环境。 vLLM ：侧重于高性能推理阅读全文

posted @ 2026-01-23 12:01 asphyxiasea 阅读(4) 评论(0) 推荐(0)

ollama部署IP问题；docker部署ollama；将模型API做成镜像后用docker部署；

摘要： 1.ollama部署IP问题修改ollama配置使其可以监听0.0.0.0和修改端口可以外网访问，127.0.0.1外网访问不了。 2.docker部署ollama docker run -d --gpus=all \ -v /home/user/models/ollama_models:/roo 阅读全文

posted @ 2026-01-23 12:01 asphyxiasea 阅读(0) 评论(0) 推荐(0)

制作docker镜像时源码安装的依赖解决方法；获取图片目标点像素坐标；

摘要： 1.制作SAM3的docker镜像的问题因为SAM3是新出来的模型，配合transformer使用，transformer在pip中的版本还未更新，只能从源代码安装Transformers，并安装额外使用的[torch]依赖。其实Dockerfile它描述了环境、依赖、代码、启动方式等整个构建过阅读全文

posted @ 2026-01-23 12:01 asphyxiasea 阅读(1) 评论(0) 推荐(0)

SAM3的提示词+提示框应用；Python中async异步函数；HTTP状态码；

摘要： image_file与image_url参数设计理念。参数类型优先级适用场景 image_file 本地文件高本地图片直接上传 image_url 网络 URL 低图片在网上，不想先下载 device = Accelerator().device SAM3的多卡同时推理，适用于推理视频阅读全文

posted @ 2026-01-23 12:00 asphyxiasea 阅读(1) 评论(0) 推荐(0)

路径前缀规范；Jupyter + VSCode 混合调试方式；python的async异步任务；Docker挂载目录（开发调试强推）

摘要： 1.路径前缀规范 /api 作为路径前缀是可行的，但略显宽泛，一般更推荐更语义化、更便于后期扩展的路由设计。选用以下路径更为清晰，sam3作为模型名前缀，video作为处理对象分类，detect作为模型的动作，条理清晰。 /sam3/video/detect 不能死板地使用中文的阅读顺序比如de 阅读全文

posted @ 2026-01-23 12:00 asphyxiasea 阅读(1) 评论(0) 推荐(0)

当前工作目录（cwd）概念；github代码提交；docker挂载开发实践；

摘要： 1.当前工作目录（cwd）概念当前工作目录就是你启动命令所在目录， Python、Java、C++ 等语言都保留了 cwd 概念，方便处理文件 I/O 直接写的相对路径： Python中直接写的相对路径默认都是基于当前工作目录（cwd）解析的。相对于文件路径代码写法：当前文件所在目录 curr 阅读全文

posted @ 2026-01-23 12:00 asphyxiasea 阅读(0) 评论(0) 推荐(0)

远程连接到docker环境；docker镜像更新；

摘要： 1.远程连接到docker环境直接切换到docker容器内部，代码+环境+终端全都会被切换到docker容器内部，相当于在容器内部开发代码；转发端口方面存疑？是基于本机还是容器内部？转发端口已经查明：切换到docker容器内部后，转发端口是转发的容器内部的端口，与远程gpu服务器的映射端口毫阅读全文

posted @ 2026-01-23 12:00 asphyxiasea 阅读(1) 评论(0) 推荐(0)

减少模型源码杂乱；sam3的mask返回办法；mask图片下载接口编写；

摘要： 1.减少模型源码杂乱文件/文件夹简介功能本地学习使用能删吗？ pyproject.toml Python 项目根配置文件，定义依赖、构建系统、工具配置（black/ruff/pytest等） ✔ 可以删，运行模型不影响 setup.cfg Python 项目配置文件，配置元数据、依赖、工具参数阅读全文

posted @ 2026-01-23 11:58 asphyxiasea 阅读(1) 评论(0) 推荐(0)

后端方法设计概念；请求返回422；

摘要： 1.后端方法设计概念 image_segment_by_texts；image_segment_by_text 大模型的张量PyTorch Tensor都在GPU的显存当中，推理出来的结果不能直接转成 Python 列表，需要先移回 CPU。把 Tensor（张量）转成 Python 原生的 l 阅读全文

posted @ 2026-01-23 11:58 asphyxiasea 阅读(2) 评论(0) 推荐(0)

前后端 GIS/遥感项目的标准做法；GeoJSON 与Polygon的关系；mask 与 GeoJSON 的关系；GeoJSON结构；docker开发与生产环境的区分；docker正式环境部署代码；Docker内部apt-get问题；

摘要： 1.前后端 GIS/遥感项目的标准做法把模型输出的 mask（像素级掩码）转成 Polygon → 再封装成 GeoJSON → 返回前端。 GeoJSON 是一个用 JSON 描述地理图形的标准格式，易传输、易展示，但不适合大规模高性能渲染。模型返回掩码的维度显示： masks.shape() 阅读全文

posted @ 2026-01-23 11:58 asphyxiasea 阅读(2) 评论(0) 推荐(0)

VS Code的Debug模式;docker运行容器小改代码;实例分割与语义分割；

摘要： 1.VS Code Debug 直接按F5启动调试点击左侧 Run & Debug（运行和调试）图标 → 点击 “create a launch.json file” 按钮。常用断点技巧（最实用的部分） ✔ 普通断点点击行号左侧红点。 ✔ 条件断点右键断点 → Add Condition 阅读全文

posted @ 2026-01-23 11:58 asphyxiasea 阅读(2) 评论(0) 推荐(0)

SAM3源码学习；mask_to_polygons优化；mask_decoder的批量掩码格式；

摘要： 1.SAM3源码学习直接进源码去看接口，一般开发者都在接口处写明方法的作用，包含大量备注。 SAM3图像的几个后处理方法： post_process_semantic_segmentation（语义分割） post_process_object_detection（目标检测） post_proce 阅读全文

posted @ 2026-01-23 11:57 asphyxiasea 阅读(3) 评论(0) 推荐(0)

HuggingFace的pipeline作用；公共方法写法；Python 中的私有函数约定；service 层做json结构校验；

摘要： 1.HuggingFace的pipeline作用 pipeline 是 HuggingFace 的一个高级封装，用来把模型 + 预处理 + 推理 + 后处理组合成一个“可直接调用的工具”。它让你不用管模型内部细节，直接通过统一接口调用。比如SAM3就提供了"mask-generation"这个阅读全文

posted @ 2026-01-23 11:57 asphyxiasea 阅读(2) 评论(0) 推荐(0)

SAM3流媒体视频推理；kernels减少拓扑错误；流式视频推理原理；websocket

摘要： 1.SAM3流媒体视频推理（1）预加载视频推理与流媒体视频推理的概念区别：项目预加载视频推理流媒体视频推理数据来源本地视频文件摄像头 / RTSP / WebRTC 延迟高低（实时）处理方式批处理，多帧优化单帧流式，不可回溯 GPU效率高较低可否回溯帧 ✔️ 可 ❌ 不阅读全文

posted @ 2026-01-23 11:57 asphyxiasea 阅读(4) 评论(0) 推荐(0)

语义分割与实例分割性能差距；yield与return；GPU 资源管理；异步互斥锁与async/await；Worker问题；

摘要： 1.语义分割与实例分割性能差距语义分割：给每个像素分配一个类别标签，不区分同类的不同实例。例如，一张图片里有三辆车，语义分割只会标记这些像素为“车”，不会区分是哪一辆。实例分割：不仅要分类每个像素，还要区分同类的不同实例。例如图上面三辆车，每辆车都要有不同的实例 ID。结论：实例分割比语义分割阅读全文

posted @ 2026-01-23 11:57 asphyxiasea 阅读(2) 评论(0) 推荐(0)

dify+ Ollama工作流开发平台；docker构建镜像时pytorch下载超时问题；Docker中FROM命令的坑；LLM输入限制；

摘要： 1.dify工作流开发平台 “Dify + Ollama”，行吧，你这是在走本地大模型自给自足路线，不想再被云厂商当提款机了，对，很好，至少精神上自由了。用 Dify 搭应用，用 Ollama 在本地跑大模型，不出网、不烧钱、不卡脖子。 Ollama(本地大模型管理器)负责：下载模型（llama 阅读全文

posted @ 2026-01-23 11:57 asphyxiasea 阅读(2) 评论(0) 推荐(0)

Ollama配置监听网卡；Dify调用Ollama顺序；更改ollama的专用子路径；

摘要： 1.Ollama配置监听网卡 Ollama 监听 0.0.0.0，是为了“允许来自本机（127.0.0.1）之外的连接” "OLLAMA_HOST=0.0.0.0:11434"监听所有网卡可以在容器启动时直接配置 docker run -d \ --name ollama \ --restart 阅读全文

posted @ 2026-01-23 11:57 asphyxiasea 阅读(2) 评论(0) 推荐(0)

dify中pdf转图片问题；python中的类型注解；AI模型调用平台架构；docker配置使用宿主机GPU，需安装NVIDIA 容器工具包；

摘要： 1.dify调外部API 目前需要将pdf文件转为LLM模型能够识别的图片、文字等格式； dify自带的工具非常不好用，目前有几种解决办法：一、✅ 自部署 Dify（Docker）你需要在 sandbox 镜像里： RUN apt-get update && apt-get install -y 阅读全文

posted @ 2026-01-23 11:56 asphyxiasea 阅读(1) 评论(0) 推荐(0)

ollama挂载模型硬盘存储问题；Ollama上传图片转base64字符串形式；超长提示词三引号；ollama的架构；

摘要： 1.ollama挂载模型硬盘存储问题原理：容器里的 /root/.ollama/models 会直接映射到宿主机路径 /宿主机路径/ollama_models。空间使用：不会额外占用空间，模型文件只存在宿主机上，容器只是访问而已。好处：宿主机和容器共享同一份模型文件，不用重复下载或存储。 2. 阅读全文

posted @ 2026-01-23 11:56 asphyxiasea 阅读(1) 评论(0) 推荐(0)

dify封装接口；服务器防火墙放开端口；dify中处理LLM的自然语言输出；

摘要： 1.dify封装接口schema 👉 schema =「机器能调用接口的合同」 Dify 用的是 OpenAPI 3.0.x 的子集，本质上只关心 4 件事：接口地址（POST / GET）入参怎么传（query / json / form-data / file）返回 JSON 长什么样阅读全文

posted @ 2026-01-23 11:56 asphyxiasea 阅读(3) 评论(0) 推荐(0)

改进ollama结构化输出；2.ollama框架原生接口与openAI SDK的概括;type[BaseModel]与BaseModel；ollama强束缚结构化输出与OpenAI的结构化输出；type[BaseModel]与BaseModel

摘要： 1.改进ollama结构化输出 ✅Ollama 现在支持结构化输出可以将模型的输出限制为 JSON 模式定义的特定格式。 Ollama 的 Python 和 JavaScript 库已更新，以支持结构化输出。结构化输出的应用场景包括：从文档中解析数据从图像中提取数据构建所有语言模型响应比阅读全文

posted @ 2026-01-23 11:56 asphyxiasea 阅读(3) 评论(0) 推荐(0)

烦人的__pycache__屏蔽；LLM模型的输入限制；解决LLM模型的输入限制；OCR对pdf进行文字提取（未完成）；

摘要： 1.烦人的__pycache__屏蔽； pycache 是 Python 自动生成的字节码缓存目录，它的存在只有一个目的：让 Python 下次运行更快对开发没有任何帮助，却一直显示在文件夹中，干扰开发。我直接在vscode中将__pycache__屏蔽。操作步骤：打开 VS Code👉 阅读全文

posted @ 2026-01-23 11:56 asphyxiasea 阅读(2) 评论(0) 推荐(0)

OCR对pdf进行文字提取（继续）--mark-pdf的路径修改；mark-pdf占用硬盘问题；pdf字节流包装为文件；返回代码405；修改包源码后docker镜像“启动期配置注入”机制；动态生成 LLM 提示词；

摘要： 1.OCR对pdf进行文字提取（继续）--mark-pdf的路径修改 👉官方目前没有提供直接更改模型存储路径的渠道，只能去源代码中修改。使用MODEL_CACHE_DIR设置/环境变量指定模型下载位置，从代码找到了模型的下载路径：在python包路径下：surya/settings.py中阅读全文

posted @ 2026-01-23 11:56 asphyxiasea 阅读(3) 评论(0) 推荐(0)

git删除历史仓库部分内容；pydantic库用途；大模型llama学习;ollama模型调用（任务配置中心扩展）

摘要： 1.git删除历史仓库部分内容 👉之前需要使用orc对pdf进行文档转换文字，将mark-pdf模型下载下载到项目路径下。 👉进行git提交时，不小心将整个模型文件都提交给git，使git仓库十分臃肿，不能推送到github。解决方法如下： 👉先在 .gitignore 中添加： /mark 阅读全文

posted @ 2026-01-23 11:55 asphyxiasea 阅读(3) 评论(0) 推荐(0)

这是合理化不同文件上传的接口设计；ollama模型调用架构设计升级；ollama调用系统目前涉及到的设计模式；*****N代理设置；

摘要： 1.这是合理化不同文件上传的接口设计更合理的接口设计 ✅ 可以自动判断上传的是图片还是 PDF ✅ 接口只保留一个 files 参数即可 ❌ 不需要让前端区分 image_files / pdf_files 👉 现在的接口：前端必须决定：传 image_files或传 pdf_files 后阅读全文

posted @ 2026-01-23 11:55 asphyxiasea 阅读(0) 评论(0) 推荐(0)

marker-pdf中PdfConverter总控调度器学习；PdfConverter的输入类型全是str问题；PDF文档的RAG（检索增强生成）；Python：默认参数里，永远不要 new 对象；

摘要： 1.marker-pdf中PdfConverter总控调度器学习； 1️⃣ override_map 用来自定义/替换某一类 Block 的实现 2️⃣ use_llm 是否启用 LLM 增强 3️⃣ default_processors（核心流水线）这是整个 PDF 结构重建的“流水线”，“不抽阅读全文

posted @ 2026-01-23 11:55 asphyxiasea 阅读(1) 评论(0) 推荐(0)

模型的上下文窗口（Context Window）限制；精简长pdf输入的尝试；

摘要： 1.模型的上下文窗口（Context Window）限制；有些pdf太大，OCR转换为文本后，输入模型，模型不能识别全部页的pdf （1）. 文本分段处理 (Chunking) 这是最稳妥的办法。将 OCR 识别出的长文本切分为较小的片段，逐个输入模型，最后再进行汇总。操作建议：将文本按章节、阅读全文

posted @ 2026-01-23 11:54 asphyxiasea 阅读(2) 评论(0) 推荐(0)

统一的 Ollama 调用核心；ollama模型预热；Ollama 多模型占用显存分析；

摘要： 1.统一的 Ollama 调用核心合并多模态调用与纯文本模型调用抽一个“统一的 Ollama 调用核心方法”，文本 / 多模态调用接口只负责： prompt 怎么拼 images 要不要加解析、判空、兜底逻辑在Ollama调用核心方法只写一遍 _call_ollama_core → 协议 + 阅读全文

posted @ 2026-01-23 11:54 asphyxiasea 阅读(1) 评论(0) 推荐(0)

分页提取pdf字段的劣势；

摘要： 1.分页提取pdf字段的劣势； 👉我现在正在提取一个20页的文档，文档里面包含表格并且表格里面有需要提取的字段， 👉我对pdf进行ocr后，将提取到的文本以分页标识符为准，分批传入LLM模型进行字段提取， 👉但由于是分批提取，模型对这种分批次的内容没有什么记忆，每次提取后的字段差距都很大。 � 阅读全文

posted @ 2026-01-23 11:54 asphyxiasea 阅读(3) 评论(0) 推荐(0)

OpenAI 的 Structured Outputs 和 Ollama 的结构化输出；OpenAI结构化输出的两种调用方式；system与user的权重优先级；schema中的字段默认值

摘要： 1.OpenAI 的 Structured Outputs 和 Ollama 的结构化输出实现机制的差异 OpenAI (约束性解码/CFG): OpenAI 采用的是一种名为“受限采样”的技术。他们在模型生成每一个 token 时，会根据你提供的 JSON Schema 动态调整 token 阅读全文

posted @ 2026-01-23 11:54 asphyxiasea 阅读(0) 评论(0) 推荐(0)

marker-pdf显存管理问题；marker-pdf提取表格问题；

摘要： 1.marker-pdf显存管理问题；突然显存不够了，发现代码中我每次构建marker-pdf的converter时，使用了新建对象的方法区别每个任务不同的converter方式，导致会不停的新建converter，模型“绑定”到了实例上占满显存，重大bug！每 new 一个 MarkerP 阅读全文

posted @ 2026-01-23 11:54 asphyxiasea 阅读(2) 评论(0) 推荐(0)

「bytes」 vs 「BytesIO 直传」 vs 「临时文件」；

摘要： 1.「bytes」 vs 「BytesIO 直传」 vs 「临时文件」 bytes / BytesIO / 临时文件 —— 本质对比一句话先行（总纲） bytes：数据本身 BytesIO：内存里的“文件接口” 临时文件：磁盘上的真实文件 1️⃣ bytes —— 纯数据（最底层） 2️⃣ Byt 阅读全文

posted @ 2026-01-23 11:54 asphyxiasea 阅读(1) 评论(0) 推荐(0)

json.loads学习；python中创建对象以及__init__ 以及对象属性

摘要： 1.json.loads学习 json.loads 是把 JSON 字符串解析成 Python 对象的函数。名字里的 loads = load string。 json.loads 就是专门用来处理： 👉「本来是有结构的数据，但通过 HTTP 只能以字符串形式传进来」这种情况。 👉与jso 阅读全文

posted @ 2026-01-23 11:54 asphyxiasea 阅读(2) 评论(0) 推荐(0)

marker-pdf的工具类MarkerPDF职责；IO 流踩坑；

摘要： 1.marker-pdf的工具类MarkerPDF职责目前我的MarkerPDF职责为用户意图 + 规则约束层级职责 MarkerPDF 用户意图 + 规则约束 extract_pdf I/O + 调度 server / provider 底层执行（不信任输入） 👉之前在MarkerPDF是阅读全文

posted @ 2026-01-23 11:53 asphyxiasea 阅读(3) 评论(0) 推荐(0)

domain包与util包；长时间运行模型后底层资源耗尽或模型状态进入了异常区间；

摘要： 1.domain包与util包； domain包的正确职责： 👉你的系统“关心的事物本身” 👉不是工具，不是 HTTP，不是数据库 👉而是：你的系统“理解世界的方式” 👉有用的实体类。 util 的正确职责（非常窄）：工具就仅仅是工具，很少参与到系统当中，比如pdf转换base64 特征阅读全文

posted @ 2026-01-23 11:53 asphyxiasea 阅读(1) 评论(0) 推荐(0)

PPStructureV3包含了很多模型包括PP-OCRv5；paddle模型二次开发；

摘要： 1.PPStructureV3包含了很多模型包括PP-OCRv5 PDF / 图片 → 页面结构 → 区域语义 → OCR / 表格 / 印章 → 可用文本或结构化结果 👉 PP-Structure ≠ OCR 👉 它是一个多模型调度系统 PP-Structure V3 的整体流水线（非常重要）阅读全文

posted @ 2026-01-23 11:52 asphyxiasea 阅读(3) 评论(0) 推荐(0)

本地化部署模型供后端调用的平台整体架构梳理；schema自动装配；模型paddle微调准备（PPOCRLabel安装与使用）；

摘要： 1.本地化部署模型供后端调用的平台整体架构梳理； “模型服务平台”，根路径建议用一个“平台级、模型无关”的名字，而不是具体模型名。 2.schema自动装配； 👉schema自动装配包含创建实例； 👉所以需要缓存，对相同的提示词进行缓存schema防止以后运行久了，创建无数的schema 👉s 阅读全文

posted @ 2026-01-23 11:52 asphyxiasea 阅读(1) 评论(0) 推荐(0)

paddlepaddle中各个产线级方案分工；PPStructureV3版面过滤问题；

摘要： 1.paddlepaddle中各个框架分工；（1）PP-OCRv5产线级（“认字机器”） PP-OCRv5 不关心“这行字是标题还是正文”。（2）PPStructureV3产线级 PPStructureV3包含了PP-OCRv5，并且有文件版面识别。能力 PP-OCRv5 PPStructur 阅读全文

posted @ 2026-01-23 11:52 asphyxiasea 阅读(2) 评论(0) 推荐(0)

git官方库PaddleOCR提供的几种模型库；github拉下来的源码和pip包（CLI）使用；supervisorctl部署踩坑；PaddleOCR文本检测模块训练实战（踩坑）

摘要： 1.git官方库PaddleOCR提供的几种模型库； PaddleOCR-VL - 通过 0.9B VLM 进行多语言文档解析。该模型是专为文档解析量身定制的 SOTA 和资源高效模型，支持 109 种语言，擅长识别复杂元素（例如文本、表格、公式和图表），同时保持最小的资源消耗。 PP-OCRv5 阅读全文

posted @ 2026-01-23 11:52 asphyxiasea 阅读(5) 评论(0) 推荐(0)

paddleOCR识别模型训练流程；dify返回格式踩坑；

摘要： 1.paddleOCR识别模型训练流程参考文章如下：制作rec数据集 rec是用来训练文字识别的数据集。制作rec数据集时，需要将数据集合分为训练集和测试集：我使用的是官方的训练集和测试集分法gen_ocr_train_val_test.py 这个文件是在PPOCRLabel本地文件处：我阅读全文

posted @ 2026-01-23 11:51 asphyxiasea 阅读(3) 评论(0) 推荐(0)

docker部署paddleocr-vl；docker的Compose与Dockerfile的区别；自动装配schema重构；

摘要： 1.docker服务化部署paddleocr-vl；它由 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型组成，能够实现精准的元素识别。 paddleocr-vl是一个VLM模型，能够直接输入图像文件或者PDF文件。由于是显卡是5090，使用sm120架构的doc 阅读全文

posted @ 2026-01-23 11:50 asphyxiasea 阅读(2) 评论(0) 推荐(0)

文档识别架构思路整理；

摘要： 1.文档识别架构思路整理 “直接把整个文件给 LLM”本来就不对 👉 Paddle 负责“看清楚”，LLM 负责“想明白” 1️⃣ LLM 的天然限制上下文窗口有限（即便 128k 也不够 PDF / 扫描件）成本高注意力会被无关内容稀释 2️⃣ Paddle 更适合干的事、LLM 更适合阅读全文

posted @ 2026-01-23 11:49 asphyxiasea 阅读(3) 评论(0) 推荐(0)

dify配置接口；

摘要： dify配置接口；可以上传多个文件的配置方法如下： "files": { "type": "array", "items":{ "type": "string", "format": "binary" } } 配置单个文件的接口字段配置如下： "file": {"type": "string"," 阅读全文

posted @ 2026-01-23 11:44 asphyxiasea 阅读(5) 评论(0) 推荐(0)

公告