代码改变世界

一篇搞定:用 curl 测试私有部署模型联通性

2026-07-03 23:20  AlfredZhao  阅读(0)  评论(0)    收藏  举报

在私有部署模型环境里,最常见的排查动作就是先看服务是否存活,再分别验证对话模型和向量模型是否能正常收发请求。下面这组命令可以直接作为联通性测试模板使用。

01 | 先检查服务健康状态

笔者通常会先访问健康检查接口,确认两个服务端口是否可达:

curl -i http://[已脱敏IP]:8000/health
curl -i http://[已脱敏IP]:8002/health

这里可以先把关注点放在两件事上:一是地址 http://[已脱敏IP] 是否能访问,二是端口 80008002 是否分别有服务响应。

02 | 分别验证对话与向量接口

健康检查通过后,就可以继续发起实际请求。对话模型测试命令如下:

curl http://[已脱敏IP]:8000/v1/chat/completions \
 -H "Authorization: Bearer sk-xxxxxxxxxxxxxxxxxxxxxx" \
 -H "Content-Type: application/json" \
 -d '{
 "model": "qwen3.6-35b",
 "messages": [{"role": "user", "content": "你好,简单介绍自己"}],
 "temperature": 0.1
 }'

这条命令对应的是 8000 端口,对应模型为 qwen3.6-35b。如果接口联通,通常就能直接拿到一次对话返回。

向量模型测试命令如下:

curl http://[已脱敏IP]:8002/v1/embeddings \
 -H "Authorization: Bearer sk-xxxxxxxxxxxxxxxxxxxxxx" \
 -H "Content-Type: application/json" \
 -d '{
 "model": "qwen3-embedding",
 "input": ["测试文本,用于向量生成"]
 }'

这条命令对应的是 8002 端口,请求模型为 qwen3-embedding,输入是一段测试文本,用来验证向量生成接口是否可用。

03 | 一次排查的推荐顺序

如果只是想快速判断链路是否通,顺序可以很简单:

① 先测健康接口

先执行两个 /health 请求,确认基础服务在线。

② 再测业务接口

分别测试 /v1/chat/completions/v1/embeddings,确认聊天能力和向量能力都能正常接入。

③ 按端口区分问题

8000 主要看对话模型,8002 主要看向量模型。这样排查时更容易定位是哪一路服务异常。

关注我,和AI一起成长~