Open WebUI大模型输出完成后新对话响应延迟、输出变慢问题

Open WebUI时回答完后经常会遇到新提问回答响应延迟、或输出变慢的问题,通过显卡风扇明显可以感知后台依然占用计算资源,在运行。

该问题在LM Studio上不明显,但是使用Open WebUI就会明显感觉到,主要问题在于Open WebUI在回答完成后,会后台生成标题、追问、标签等信息,这些生成实际还是在后台执行OpenWebUI提示词,导致我们使用连贯性会被影响。特别是在使用Thinking模型时,这些后台生成任务会引发模型的二次推理,导致模型长时间后台运行,不释放计算资源,对于计算能力较弱的显卡、CPU,这个是很致命的。

 

进入系统的管理员面板,在界面菜单中,关闭如下的几个选项,问题就会解决。

image

 

posted @ 2025-11-27 19:38  猿妙不可言  阅读(3)  评论(0)    收藏  举报