摘要: 服务器上用 vllm 部署了多个 Qwen2.5-72B-Instruct 节点,都只支持单次推理,不支持批量推理。 要清洗数据,有上万个单轮请求,通过 GPT 写了一个简单的多线程批量推理脚本,基于线程锁,见下面: import openai import concurrent.futures i 阅读全文
posted @ 2025-04-03 16:50 Cold_Chair 阅读(250) 评论(0) 推荐(0)