vLLM Embedding 模型部署方案

　　vLLM 是一个高性能的推理和部署框架，特别适合大语言模型（LLM）的推理。虽然 vLLM 最初主要关注生成模型（如用于文本生成），针对生成模型优化，但它也支持 embedding 模型的部署。在 vLLM 中部署 embedding 模型，我们可以使用其内置的 embedding 模型支持，或者通过自定义的方式加载 embedding 模型。

　　在 vLLM 中，embedding 模型的部署方式与生成模型略有不同，因为 embedding 模型只需要一次前向传播，而不是自回归生成。

　　vLLM（Very Large Language Model）是专为大规模语言模型优化的推理引擎，支持高效部署 Embedding 模型。以下是完整的部署方案：

一、核心优势

高性能推理
- 基于 PagedAttention 技术，显存利用率提升 2-4 倍
- 支持连续批处理（Continuous Batching），吞吐量提升 5-10 倍

无缝集成
- 兼容 HuggingFace Transformers 模型
- 支持 OpenAI 兼容 API

二、部署流程

步骤1: 环境准备

# 创建虚拟环境
python -m venv vllm_env
source vllm_env/bin/activate

# 安装依赖
pip install vllm transformers torch

步骤2: 模型选择

BAAI/bge-large-en-v1.5
sentence-transformers/all-MiniLM-L6-v2
intfloat/e5-large-v2

启动API服务

python -m vllm.entrypoints.openai.api_server \
  --model BAAI/bge-large-en-v1.5 \
  --served-model-name text-embedding \
  --port 8000 \
  --max-num-seqs 256 \       # 最大批处理量
  --tensor-parallel-size 2   # GPU 并行数

--max-num-seqs：批处理大小，推荐值：128～256
--tensor-parallel-size：GPU并行数，推荐值：GPU数量
--quantization：量化方式 (AWQ/GPTQ)，推荐值：awq
--gpu-memory-utilization：显存利用率，推荐值：0.8-0.95

验证服务

HTTP API验证

curl http://localhost:8000/v1/embeddings \
  -H "Content-Type: application/json" \
  -d '{
    "model": "text-embedding",
    "input": "vLLM deployment tutorial"
  }'

客户端调用（Python）

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

response = client.embeddings.create(
  model="text-embedding",
  input=["vLLM is fast", "Embeddings with high throughput"]
)

print(response.data[0].embedding[:10])  # 示例输出前10维

三、生产级优化方案

性能参数调优

参数	说明	推荐值
--max-num-seqs	批处理大小	128-512
--tensor-parallel-size	GPU 并行数	GPU数量
--quantization	量化方式 (AWQ/GPTQ)	awq
--gpu-memory-utilization	显存利用率	0.8-0.95

Docker部署

FROM nvidia/cuda:12.1.0-base

RUN pip install vllm

CMD ["python", "-m", "vllm.entrypoints.openai.api_server", \
     "--model", "BAAI/bge-large-en-v1.5", \
     "--port", "8000"]

构建命令

docker build -t vllm-embedding .
docker run --gpus all -p 8000:8000 vllm-embedding

四、性能基准测试

模型	硬件	吞吐量 (req/s)	延迟 (ms)
bge-base-en	A10G x1	1420	12.3
e5-large-v2	A100 x2	890	28.7
all-MiniLM-L6	T4 x1	3100	5.2

测试条件：批大小=128, 输入长度=256 tokens

五、高级功能

动态批处理

# 自动合并不同长度的请求
--enable-prefix-caching

多模型部署

python -m vllm.entrypoints.openai.api_server \
  --model huggyllama/llama-7b text-embedding-1 \
  --model BAAI/bge-large text-embedding-2

集成监控

Prometheus 指标端点：http://localhost:8000/metrics
关键指标：vllm_batch_size vllm_pending_requests

六、故障排查

OOM错误：

降低 --max-num-seqs
启用量化：--quantization awq

低吞吐量：

增加 --max-num-seqs
使用 FlashAttention：--enable-flash-attn

API错误：

{"error": {"message": "Model text-embedding not found"}}

　　解决方案：检查 --served-model-name 与请求中的 model 字段是否一致

posted @ 2025-08-10 23:28 binger0712 阅读(1731) 评论(0) 收藏举报

刷新页面返回顶部

binger0712

vLLM Embedding 模型部署方案

一、核心优势

高性能推理

无缝集成

二、部署流程

步骤1: 环境准备

步骤2: 模型选择

启动API服务

验证服务

三、生产级优化方案

性能参数调优

Docker部署

四、性能基准测试

五、高级功能

动态批处理

多模型部署

集成监控

六、故障排查

OOM错误：

低吞吐量：

API错误：

公告