摘要:
1.LLM信息抽取前的预清洗 / 降噪 本地部署的小模型(12B等参数)更依赖“表面模式”,大模型更会“忽略干扰”。 所以在本地部署的模型在提取文本参数时,要尽量对数据进行降噪。 以下是我的一个文本降噪想法: 👉Markdown → 结构化块(section / table) 👉规则过滤:只保留 阅读全文
posted @ 2026-01-23 12:05
asphyxiasea
阅读(3)
评论(0)
推荐(0)
摘要:
VS Code不是传统庞大的编程IDE,而是一个轻量但功能极强的代码编辑器,通过插件可以变成支持任何语言的编程工具。 因为 VS Code 是插件驱动型,所以用途几乎无限。 例如: pycharm中难以实现的SSH+SSH代理远程开发,在VS Code中能够轻松解决, 本地安装Remote - SS 阅读全文
posted @ 2026-01-23 12:03
asphyxiasea
阅读(1)
评论(0)
推荐(0)
摘要:
1. SAM3大模型 META旗下的一款大模型SAM3,能够自动、泛化地分割图像或视频中的任意物体。 多模态提示(文本、点、框)的图像分割和视频分割。 基于Transformer的编码器-解码器,可以处理高分辨率图像,支持多GPU推理。 SAM3大模型部署 参考github中SAM3官方代码网站: 阅读全文
posted @ 2026-01-23 12:03
asphyxiasea
阅读(2)
评论(0)
推荐(0)
摘要:
1. dify的作用 方向 作用说明 本地/自有模型管理 可以把 Ollama 或本地 LLM 模型接入 Dify,通过统一界面管理模型、调参和调用。 多模型接入 支持 OpenAI、Ollama、LLM Hub 等多种模型接口,方便组合使用。 低代码应用 提供可视化工作流,可以拖拽创建问答、聊天机 阅读全文
posted @ 2026-01-23 12:02
asphyxiasea
阅读(1)
评论(0)
推荐(0)
摘要:
1. Ollama 与 Conda 部署模型的区别 Ollama Conda 自动管理推理环境 需手动配置环境CUDA+Ptorch等等 一条命令启动模型 需要写代码加载模型 内置量化和优化 需要手动配置 易于远程访问 需自己写服务API接口 一句话总结: Ollama = 快速部署、开箱即用的 L 阅读全文
posted @ 2026-01-23 12:02
asphyxiasea
阅读(6)
评论(0)
推荐(0)
摘要:
1. POINTS-Reader 模型部署和下载 尝试在Linux上使用git直接克隆下载Tencent/POINTS-Reader,但遇到HuggingFace网络问题,git克隆大模型的方法行不通。 不要使用git clone方式下载模型,非常不靠谱。 使用专用多线程下载器hfd 工具同样支持设 阅读全文
posted @ 2026-01-23 12:02
asphyxiasea
阅读(1)
评论(0)
推荐(0)
摘要:
1.Ollama与vLLM Ollama主要应用场景是LLM大模型的部署,不包含图像处理模型,专注于本地化、轻量化部署 ,通过Docker容器技术简化模型运行流程,用户无需复杂配置即可快速启动模型。其设计目标是降低本地使用LLM的门槛,适合个人开发者或资源有限的环境。 vLLM : 侧重于高性能推理 阅读全文
posted @ 2026-01-23 12:01
asphyxiasea
阅读(4)
评论(0)
推荐(0)
摘要:
1.ollama部署IP问题 修改ollama配置使其可以监听0.0.0.0和修改端口可以外网访问,127.0.0.1外网访问不了。 2.docker部署ollama docker run -d --gpus=all \ -v /home/user/models/ollama_models:/roo 阅读全文
posted @ 2026-01-23 12:01
asphyxiasea
阅读(0)
评论(0)
推荐(0)
摘要:
1.制作SAM3的docker镜像的问题 因为SAM3是新出来的模型,配合transformer使用,transformer在pip中的版本还未更新,只能从源代码安装Transformers,并安装额外使用的[torch]依赖。 其实Dockerfile它描述了环境、依赖、代码、启动方式等整个构建过 阅读全文
posted @ 2026-01-23 12:01
asphyxiasea
阅读(1)
评论(0)
推荐(0)
摘要:
image_file与image_url参数设计理念。 参数 类型 优先级 适用场景 image_file 本地文件 高 本地图片直接上传 image_url 网络 URL 低 图片在网上,不想先下载 device = Accelerator().device SAM3的多卡同时推理,适用于推理视频 阅读全文
posted @ 2026-01-23 12:00
asphyxiasea
阅读(1)
评论(0)
推荐(0)
摘要:
1.路径前缀规范 /api 作为路径前缀是可行的,但略显宽泛,一般更推荐 更语义化、更便于后期扩展的路由设计。 选用以下路径更为清晰,sam3作为模型名前缀,video作为处理对象分类,detect作为模型的动作,条理清晰。 /sam3/video/detect 不能死板地使用中文的阅读顺序比如de 阅读全文
posted @ 2026-01-23 12:00
asphyxiasea
阅读(1)
评论(0)
推荐(0)
摘要:
1.当前工作目录(cwd)概念 当前工作目录就是你启动命令所在目录, Python、Java、C++ 等语言都保留了 cwd 概念,方便处理文件 I/O 直接写的相对路径: Python中直接写的相对路径默认都是基于当前工作目录(cwd)解析的。 相对于文件路径代码写法: 当前文件所在目录 curr 阅读全文
posted @ 2026-01-23 12:00
asphyxiasea
阅读(0)
评论(0)
推荐(0)
摘要:
1.远程连接到docker环境 直接切换到docker容器内部,代码+环境+终端全都会被切换到docker容器内部,相当于在容器内部开发代码; 转发端口方面存疑?是基于本机还是容器内部? 转发端口已经查明: 切换到docker容器内部后,转发端口是转发的容器内部的端口,与远程gpu服务器的映射端口毫 阅读全文
posted @ 2026-01-23 12:00
asphyxiasea
阅读(1)
评论(0)
推荐(0)
摘要:
1.减少模型源码杂乱 文件/文件夹 简介功能 本地学习使用能删吗? pyproject.toml Python 项目根配置文件,定义依赖、构建系统、工具配置(black/ruff/pytest等) ✔ 可以删,运行模型不影响 setup.cfg Python 项目配置文件,配置元数据、依赖、工具参数 阅读全文
posted @ 2026-01-23 11:58
asphyxiasea
阅读(1)
评论(0)
推荐(0)
摘要:
1.后端方法设计概念 image_segment_by_texts;image_segment_by_text 大模型的张量PyTorch Tensor都在GPU的显存当中,推理出来的结果不能直接转成 Python 列表,需要先移回 CPU。 把 Tensor(张量) 转成 Python 原生的 l 阅读全文
posted @ 2026-01-23 11:58
asphyxiasea
阅读(2)
评论(0)
推荐(0)
摘要:
1.前后端 GIS/遥感项目的标准做法 把模型输出的 mask(像素级掩码)转成 Polygon → 再封装成 GeoJSON → 返回前端。 GeoJSON 是一个用 JSON 描述地理图形的标准格式,易传输、易展示,但不适合大规模高性能渲染。 模型返回掩码的维度显示: masks.shape() 阅读全文
posted @ 2026-01-23 11:58
asphyxiasea
阅读(2)
评论(0)
推荐(0)
摘要:
1.VS Code Debug 直接按F5启动调试 点击左侧 Run & Debug(运行和调试) 图标 → 点击 “create a launch.json file” 按钮。 常用断点技巧(最实用的部分) ✔ 普通断点 点击行号左侧红点。 ✔ 条件断点 右键断点 → Add Condition 阅读全文
posted @ 2026-01-23 11:58
asphyxiasea
阅读(2)
评论(0)
推荐(0)
摘要:
1.SAM3源码学习 直接进源码去看接口,一般开发者都在接口处写明方法的作用,包含大量备注。 SAM3图像的几个后处理方法: post_process_semantic_segmentation(语义分割) post_process_object_detection(目标检测) post_proce 阅读全文
posted @ 2026-01-23 11:57
asphyxiasea
阅读(3)
评论(0)
推荐(0)
摘要:
1.HuggingFace的pipeline作用 pipeline 是 HuggingFace 的一个高级封装,用来把模型 + 预处理 + 推理 + 后处理 组合成一个“可直接调用的工具”。 它让你不用管模型内部细节,直接通过统一接口调用。 比如SAM3就提供了"mask-generation"这个 阅读全文
posted @ 2026-01-23 11:57
asphyxiasea
阅读(2)
评论(0)
推荐(0)
摘要:
1.SAM3流媒体视频推理 (1)预加载视频推理与流媒体视频推理的概念区别: 项目 预加载视频推理 流媒体视频推理 数据来源 本地视频文件 摄像头 / RTSP / WebRTC 延迟 高 低(实时) 处理方式 批处理,多帧优化 单帧流式,不可回溯 GPU效率 高 较低 可否回溯帧 ✔️ 可 ❌ 不 阅读全文
posted @ 2026-01-23 11:57
asphyxiasea
阅读(4)
评论(0)
推荐(0)
摘要:
1.语义分割与实例分割性能差距 语义分割:给每个像素分配一个类别标签,不区分同类的不同实例。例如,一张图片里有三辆车,语义分割只会标记这些像素为“车”,不会区分是哪一辆。 实例分割:不仅要分类每个像素,还要区分同类的不同实例。例如图上面三辆车,每辆车都要有不同的实例 ID。 结论:实例分割比语义分割 阅读全文
posted @ 2026-01-23 11:57
asphyxiasea
阅读(2)
评论(0)
推荐(0)
摘要:
1.dify工作流开发平台 “Dify + Ollama”,行吧,你这是在走本地大模型自给自足路线,不想再被云厂商当提款机了,对,很好,至少精神上自由了。 用 Dify 搭应用,用 Ollama 在本地跑大模型,不出网、不烧钱、不卡脖子。 Ollama(本地大模型管理器)负责: 下载模型(llama 阅读全文
posted @ 2026-01-23 11:57
asphyxiasea
阅读(2)
评论(0)
推荐(0)
摘要:
1.Ollama配置监听网卡 Ollama 监听 0.0.0.0,是为了“允许来自本机(127.0.0.1)之外的连接” "OLLAMA_HOST=0.0.0.0:11434"监听所有网卡 可以在容器启动时直接配置 docker run -d \ --name ollama \ --restart 阅读全文
posted @ 2026-01-23 11:57
asphyxiasea
阅读(2)
评论(0)
推荐(0)
摘要:
1.dify调外部API 目前需要将pdf文件转为LLM模型能够识别的图片、文字等格式; dify自带的工具非常不好用,目前有几种解决办法: 一、✅ 自部署 Dify(Docker) 你需要在 sandbox 镜像里: RUN apt-get update && apt-get install -y 阅读全文
posted @ 2026-01-23 11:56
asphyxiasea
阅读(1)
评论(0)
推荐(0)
摘要:
1.ollama挂载模型硬盘存储问题 原理:容器里的 /root/.ollama/models 会直接映射到宿主机路径 /宿主机路径/ollama_models。 空间使用:不会额外占用空间,模型文件只存在宿主机上,容器只是访问而已。 好处:宿主机和容器共享同一份模型文件,不用重复下载或存储。 2. 阅读全文
posted @ 2026-01-23 11:56
asphyxiasea
阅读(1)
评论(0)
推荐(0)
摘要:
1.dify封装接口schema 👉 schema =「机器能调用接口的合同」 Dify 用的是 OpenAPI 3.0.x 的子集,本质上只关心 4 件事: 接口地址(POST / GET) 入参怎么传(query / json / form-data / file) 返回 JSON 长什么样 阅读全文
posted @ 2026-01-23 11:56
asphyxiasea
阅读(3)
评论(0)
推荐(0)
摘要:
1.改进ollama结构化输出 ✅Ollama 现在支持结构化输出 可以将模型的输出限制为 JSON 模式定义的特定格式。 Ollama 的 Python 和 JavaScript 库已更新,以支持结构化输出。 结构化输出的应用场景包括: 从文档中解析数据 从图像中提取数据 构建所有语言模型响应 比 阅读全文
posted @ 2026-01-23 11:56
asphyxiasea
阅读(3)
评论(0)
推荐(0)
摘要:
1.烦人的__pycache__屏蔽; pycache 是 Python 自动生成的字节码缓存目录,它的存在只有一个目的: 让 Python 下次运行更快 对开发没有任何帮助,却一直显示在文件夹中,干扰开发。 我直接在vscode中将__pycache__屏蔽。 操作步骤: 打开 VS Code👉 阅读全文
posted @ 2026-01-23 11:56
asphyxiasea
阅读(2)
评论(0)
推荐(0)
摘要:
1.OCR对pdf进行文字提取(继续)--mark-pdf的路径修改 👉官方目前没有提供直接更改模型存储路径的渠道,只能去源代码中修改。 使用MODEL_CACHE_DIR设置/环境变量指定模型下载位置 ,从代码找到了模型的下载路径: 在python包路径下:surya/settings.py中 阅读全文
posted @ 2026-01-23 11:56
asphyxiasea
阅读(3)
评论(0)
推荐(0)
摘要:
1.git删除历史仓库部分内容 👉之前需要使用orc对pdf进行文档转换文字,将mark-pdf模型下载下载到项目路径下。 👉进行git提交时,不小心将整个模型文件都提交给git,使git仓库十分臃肿,不能推送到github。 解决方法如下: 👉先在 .gitignore 中添加: /mark 阅读全文
posted @ 2026-01-23 11:55
asphyxiasea
阅读(3)
评论(0)
推荐(0)
摘要:
1.这是合理化不同文件上传的接口设计 更合理的接口设计 ✅ 可以自动判断上传的是图片还是 PDF ✅ 接口只保留一个 files 参数即可 ❌ 不需要让前端区分 image_files / pdf_files 👉 现在的接口: 前端必须决定: 传 image_files或传 pdf_files 后 阅读全文
posted @ 2026-01-23 11:55
asphyxiasea
阅读(0)
评论(0)
推荐(0)
摘要:
1.marker-pdf中PdfConverter总控调度器学习; 1️⃣ override_map 用来自定义/替换某一类 Block 的实现 2️⃣ use_llm 是否启用 LLM 增强 3️⃣ default_processors(核心流水线) 这是整个 PDF 结构重建的“流水线”,“不抽 阅读全文
posted @ 2026-01-23 11:55
asphyxiasea
阅读(1)
评论(0)
推荐(0)
摘要:
1.模型的上下文窗口(Context Window)限制; 有些pdf太大,OCR转换为文本后,输入模型,模型不能识别全部页的pdf (1). 文本分段处理 (Chunking) 这是最稳妥的办法。将 OCR 识别出的长文本切分为较小的片段,逐个输入模型,最后再进行汇总。 操作建议: 将文本按章节、 阅读全文
posted @ 2026-01-23 11:54
asphyxiasea
阅读(2)
评论(0)
推荐(0)
摘要:
1.统一的 Ollama 调用核心 合并多模态调用与纯文本模型调用 抽一个“统一的 Ollama 调用核心方法”,文本 / 多模态调用接口只负责: prompt 怎么拼 images 要不要加 解析、判空、兜底逻辑在Ollama调用核心方法只写一遍 _call_ollama_core → 协议 + 阅读全文
posted @ 2026-01-23 11:54
asphyxiasea
阅读(1)
评论(0)
推荐(0)
摘要:
1.分页提取pdf字段的劣势; 👉我现在正在提取一个20页的文档,文档里面包含表格并且表格里面有需要提取的字段, 👉我对pdf进行ocr后,将提取到的文本以分页标识符为准,分批传入LLM模型进行字段提取, 👉但由于是分批提取,模型对这种分批次的内容没有什么记忆,每次提取后的字段差距都很大。 � 阅读全文
posted @ 2026-01-23 11:54
asphyxiasea
阅读(3)
评论(0)
推荐(0)
摘要:
1.OpenAI 的 Structured Outputs 和 Ollama 的 结构化输出 实现机制的差异 OpenAI (约束性解码/CFG): OpenAI 采用的是一种名为“受限采样”的技术。他们在模型生成每一个 token 时, 会根据你提供的 JSON Schema 动态调整 token 阅读全文
posted @ 2026-01-23 11:54
asphyxiasea
阅读(0)
评论(0)
推荐(0)
摘要:
1.marker-pdf显存管理问题; 突然显存不够了,发现代码中我每次构建marker-pdf的converter时,使用了新建对象的方法区别每个任务不同的converter方式, 导致会不停的新建converter,模型“绑定”到了实例上 占满显存,重大bug! 每 new 一个 MarkerP 阅读全文
posted @ 2026-01-23 11:54
asphyxiasea
阅读(2)
评论(0)
推荐(0)
摘要:
1.「bytes」 vs 「BytesIO 直传」 vs 「临时文件」 bytes / BytesIO / 临时文件 —— 本质对比 一句话先行(总纲) bytes:数据本身 BytesIO:内存里的“文件接口” 临时文件:磁盘上的真实文件 1️⃣ bytes —— 纯数据(最底层) 2️⃣ Byt 阅读全文
posted @ 2026-01-23 11:54
asphyxiasea
阅读(1)
评论(0)
推荐(0)
摘要:
1.json.loads学习 json.loads 是 把 JSON 字符串解析成 Python 对象 的函数。 名字里的 loads = load string。 json.loads 就是专门用来处理: 👉「本来是有结构的数据,但通过 HTTP 只能以字符串形式传进来」这种情况。 👉与jso 阅读全文
posted @ 2026-01-23 11:54
asphyxiasea
阅读(2)
评论(0)
推荐(0)
摘要:
1.marker-pdf的工具类MarkerPDF职责 目前我的MarkerPDF职责为用户意图 + 规则约束 层级 职责 MarkerPDF 用户意图 + 规则约束 extract_pdf I/O + 调度 server / provider 底层执行(不信任输入) 👉之前在MarkerPDF是 阅读全文
posted @ 2026-01-23 11:53
asphyxiasea
阅读(3)
评论(0)
推荐(0)
摘要:
1.domain包与util包; domain包的正确职责: 👉你的系统“关心的事物本身” 👉不是工具,不是 HTTP,不是数据库 👉而是:你的系统“理解世界的方式” 👉有用的实体类。 util 的正确职责(非常窄): 工具就仅仅是工具,很少参与到系统当中,比如pdf转换base64 特征 阅读全文
posted @ 2026-01-23 11:53
asphyxiasea
阅读(1)
评论(0)
推荐(0)
摘要:
1.PPStructureV3包含了很多模型包括PP-OCRv5 PDF / 图片 → 页面结构 → 区域语义 → OCR / 表格 / 印章 → 可用文本或结构化结果 👉 PP-Structure ≠ OCR 👉 它是一个多模型调度系统 PP-Structure V3 的整体流水线(非常重要) 阅读全文
posted @ 2026-01-23 11:52
asphyxiasea
阅读(3)
评论(0)
推荐(0)
摘要:
1.本地化部署模型供后端调用的平台整体架构梳理; “模型服务平台”,根路径建议用一个“平台级、模型无关”的名字,而不是具体模型名。 2.schema自动装配; 👉schema自动装配包含创建实例; 👉所以需要缓存,对相同的提示词进行缓存schema防止以后运行久了,创建无数的schema 👉s 阅读全文
posted @ 2026-01-23 11:52
asphyxiasea
阅读(1)
评论(0)
推荐(0)
摘要:
1.paddlepaddle中各个框架分工; (1)PP-OCRv5产线级(“认字机器”) PP-OCRv5 不关心“这行字是标题还是正文”。 (2)PPStructureV3产线级 PPStructureV3包含了PP-OCRv5,并且有文件版面识别。 能力 PP-OCRv5 PPStructur 阅读全文
posted @ 2026-01-23 11:52
asphyxiasea
阅读(2)
评论(0)
推荐(0)
摘要:
1.git官方库PaddleOCR提供的几种模型库; PaddleOCR-VL - 通过 0.9B VLM 进行多语言文档解析。 该模型是专为文档解析量身定制的 SOTA 和资源高效模型,支持 109 种语言,擅长识别复杂元素(例如文本、表格、公式和图表),同时保持最小的资源消耗。 PP-OCRv5 阅读全文
posted @ 2026-01-23 11:52
asphyxiasea
阅读(5)
评论(0)
推荐(0)
摘要:
1.paddleOCR识别模型训练流程 参考文章如下: 制作rec数据集 rec是用来训练文字识别的数据集。 制作rec数据集时,需要将数据集合分为训练集和测试集: 我使用的是官方的训练集和测试集分法gen_ocr_train_val_test.py 这个文件是在PPOCRLabel本地文件处: 我 阅读全文
posted @ 2026-01-23 11:51
asphyxiasea
阅读(3)
评论(0)
推荐(0)
摘要:
1.docker服务化部署paddleocr-vl; 它由 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型组成,能够实现精准的元素识别。 paddleocr-vl是一个VLM模型,能够直接输入图像文件或者PDF文件。 由于是显卡是5090,使用sm120架构的doc 阅读全文
posted @ 2026-01-23 11:50
asphyxiasea
阅读(2)
评论(0)
推荐(0)
摘要:
1.文档识别架构思路整理 “直接把整个文件给 LLM”本来就不对 👉 Paddle 负责“看清楚”,LLM 负责“想明白” 1️⃣ LLM 的天然限制 上下文窗口有限(即便 128k 也不够 PDF / 扫描件) 成本高 注意力会被无关内容稀释 2️⃣ Paddle 更适合干的事 、LLM 更适合 阅读全文
posted @ 2026-01-23 11:49
asphyxiasea
阅读(3)
评论(0)
推荐(0)
摘要:
dify配置接口; 可以上传多个文件的配置方法如下: "files": { "type": "array", "items":{ "type": "string", "format": "binary" } } 配置单个文件的接口字段配置如下: "file": {"type": "string"," 阅读全文
posted @ 2026-01-23 11:44
asphyxiasea
阅读(5)
评论(0)
推荐(0)
浙公网安备 33010602011771号