会员
周边
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
lqf-dev
博客园
首页
新随笔
联系
订阅
管理
2026年6月3日
流式大模型调用中的首包监测:解决流式调用大模型的异步问题
摘要: 流式大模型调用中的首包监测:解决异步错误与模型切换的窗口期 适合场景:RAG 应用、智能客服、知识库问答、Agent 系统、本地大模型推理服务、需要支持流式输出和多模型故障转移的后端系统。 前言 在大模型应用里,同步调用和流式调用的错误处理方式差异很大。 同步调用比较好理解:调用模型 A 失败了,当
阅读全文
posted @ 2026-06-03 14:29 代码丰
阅读(0)
评论(0)
推荐(0)
2026年5月28日
调用多个AI 模型时,如何实现一个简单的熔断机制
摘要: 调用 AI 模型时,如何实现一个简单的熔断机制 适合场景:RAG 应用、智能客服、知识库问答、内容生成、Embedding 检索、Rerank 精排等需要调用 AI 模型服务的系统。 前言 在 AI 应用里,我们经常会调用不同类型的模型服务,例如: Chat 模型:负责对话、问答、总结、生成 Emb
阅读全文
posted @ 2026-05-28 17:13 代码丰
阅读(2)
评论(0)
推荐(0)
2026年5月26日
SynchronousQueue + CallerRunsPolicy 与 LinkedBlockingQueue + CallerRunsPolicy 对比
摘要: SynchronousQueue + CallerRunsPolicy 与 LinkedBlockingQueue + CallerRunsPolicy 对比 本文是总结业务上遇到的线程池设计问题 询问GPT后总结的内容 1. 背景 在 Java 线程池中,很多人会重点关注这几个参数: corePo
阅读全文
posted @ 2026-05-26 16:05 代码丰
阅读(5)
评论(0)
推荐(0)
2026年5月21日
基于数据库字段实现可续期分布式锁:从任务抢占到心跳续约
摘要: 基于数据库字段实现可续期分布式锁:从任务抢占到心跳续约 前言 在多实例部署的后台系统中,经常会遇到这样一类问题:多个服务节点都会定时扫描数据库中的任务表,找出已经到期的任务并执行。 如果没有互斥控制,就可能出现: 实例 A 扫到 task-1 到期 实例 B 也扫到 task-1 到期 实例 C 也
阅读全文
posted @ 2026-05-21 14:34 代码丰
阅读(6)
评论(0)
推荐(0)
2026年5月19日
Spring Boot 做 RAG 文档上传:为什么要用分布式信号量控制并发?
摘要: Spring Boot 做 RAG 文档上传:为什么要用分布式信号量控制并发? 做 RAG 系统时,文档上传不是简单地把文件收下来。 用户上传一个 PDF、Word 或 Markdown 后,系统后面通常还要做: 保存文件 -> 解析文本 -> 文本分片 -> 生成向量 -> 写入向量库 所以文档上
阅读全文
posted @ 2026-05-19 16:46 代码丰
阅读(3)
评论(0)
推荐(0)
Spring Boot 做 RAG 文档上传:1GB 文件会不会打爆内存?
摘要: Spring Boot 做 RAG 文档上传:1GB 文件会不会打爆内存? 做 RAG 系统时,文档上传很容易被低估。 普通系统里,上传文件可能只是保存附件。但在 RAG 里,上传只是第一步,后面通常还有: 上传文档 -> 保存文件 -> 解析文本 -> 文本分片 -> 生成 embedding -
阅读全文
posted @ 2026-05-19 15:44 代码丰
阅读(7)
评论(0)
推荐(0)
2026年5月12日
大模型 + RAG 幻觉治理方案总结
摘要: 大模型 + RAG 幻觉治理方案总结 本文是与GPT深度聊天后总结的文章 非本人编写 1. 核心结论 大模型 + RAG 的幻觉问题,不能只靠 Prompt 解决。 Prompt 只能约束模型“怎么回答”,但如果前面的文档源、切分、检索、重排、上下文组装本身有问题,模型依然会基于错误或缺失的信息生成
阅读全文
posted @ 2026-05-12 17:12 代码丰
阅读(22)
评论(0)
推荐(0)
公告