摘要: 流式大模型调用中的首包监测:解决异步错误与模型切换的窗口期 适合场景:RAG 应用、智能客服、知识库问答、Agent 系统、本地大模型推理服务、需要支持流式输出和多模型故障转移的后端系统。 前言 在大模型应用里,同步调用和流式调用的错误处理方式差异很大。 同步调用比较好理解:调用模型 A 失败了,当 阅读全文
posted @ 2026-06-03 14:29 代码丰 阅读(0) 评论(0) 推荐(0)
摘要: 调用 AI 模型时,如何实现一个简单的熔断机制 适合场景:RAG 应用、智能客服、知识库问答、内容生成、Embedding 检索、Rerank 精排等需要调用 AI 模型服务的系统。 前言 在 AI 应用里,我们经常会调用不同类型的模型服务,例如: Chat 模型:负责对话、问答、总结、生成 Emb 阅读全文
posted @ 2026-05-28 17:13 代码丰 阅读(2) 评论(0) 推荐(0)
摘要: SynchronousQueue + CallerRunsPolicy 与 LinkedBlockingQueue + CallerRunsPolicy 对比 本文是总结业务上遇到的线程池设计问题 询问GPT后总结的内容 1. 背景 在 Java 线程池中,很多人会重点关注这几个参数: corePo 阅读全文
posted @ 2026-05-26 16:05 代码丰 阅读(5) 评论(0) 推荐(0)
摘要: 基于数据库字段实现可续期分布式锁:从任务抢占到心跳续约 前言 在多实例部署的后台系统中,经常会遇到这样一类问题:多个服务节点都会定时扫描数据库中的任务表,找出已经到期的任务并执行。 如果没有互斥控制,就可能出现: 实例 A 扫到 task-1 到期 实例 B 也扫到 task-1 到期 实例 C 也 阅读全文
posted @ 2026-05-21 14:34 代码丰 阅读(6) 评论(0) 推荐(0)
摘要: Spring Boot 做 RAG 文档上传:为什么要用分布式信号量控制并发? 做 RAG 系统时,文档上传不是简单地把文件收下来。 用户上传一个 PDF、Word 或 Markdown 后,系统后面通常还要做: 保存文件 -> 解析文本 -> 文本分片 -> 生成向量 -> 写入向量库 所以文档上 阅读全文
posted @ 2026-05-19 16:46 代码丰 阅读(3) 评论(0) 推荐(0)
摘要: Spring Boot 做 RAG 文档上传:1GB 文件会不会打爆内存? 做 RAG 系统时,文档上传很容易被低估。 普通系统里,上传文件可能只是保存附件。但在 RAG 里,上传只是第一步,后面通常还有: 上传文档 -> 保存文件 -> 解析文本 -> 文本分片 -> 生成 embedding - 阅读全文
posted @ 2026-05-19 15:44 代码丰 阅读(7) 评论(0) 推荐(0)
摘要: 大模型 + RAG 幻觉治理方案总结 本文是与GPT深度聊天后总结的文章 非本人编写 1. 核心结论 大模型 + RAG 的幻觉问题,不能只靠 Prompt 解决。 Prompt 只能约束模型“怎么回答”,但如果前面的文档源、切分、检索、重排、上下文组装本身有问题,模型依然会基于错误或缺失的信息生成 阅读全文
posted @ 2026-05-12 17:12 代码丰 阅读(22) 评论(0) 推荐(0)