摘要: 我的电脑上长期运行了一个 Qwen3 4B 模型,用于沉浸式翻译和 Cherry Studio 中的话题命名以及翻译任务。在过去的约半年时间内,我一直使用 llama.cpp 来部署 Q4 量化的 GGUF 模型。最近,为了获得更好的并发性能,我计划将推理框架改为 vLLM/SGLang。 我的环境 阅读全文
posted @ 2025-08-13 20:42 Eslzzyl 阅读(257) 评论(0) 推荐(0)