基于OpenVINO创建文本生成AI服务器

首先根据官方文档里的这条命令下载

curl -L https://github.com/openvinotoolkit/model_server/releases/download/v2025.3/ovms_windows_python_on.zip -o ovms.zip
tar -xf ovms.zip

运行这条命令 .\ovms\setupvars.bat
运行这条命令启动模型服务
```
ovms.exe --source_model OpenVINO/Qwen3-0.6B-fp16-ov --model_repository_path models --rest_port 8000 --task text_generation --target_device GPU --cache_size 2
```
首次运行的话会下载指定的模型，时间可能需要有点长，等待下载完之后下次运行的时候就会自动使用了。如果你要使用别的模型的话，你就更改里面的OpenVINO/Qwen3-0.6B-fp16-ov这个部分就可以；如果要以CPU或NPU模式运行的话，就把里面的GPU换掉就好。

测试模型是否可以成功使用的话可以使用如下这条命令，注意端口和模型名称要和你的对应

 curl -s http://localhost:8000/v3/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "OpenVINO/Qwen3-0.6B-fp16-ov",
    "temperature": 0,
    "stream": false,
    "messages": [
      { "role": "system", "content": "You are a helpful assistant. /no_think" },
      { "role": "user", "content": "What are the 3 main tourist attractions in Paris" }
    ]
  }'

posted @ 2025-12-13 16:12 iMath 阅读(10) 评论(0) 收藏举报

刷新页面返回顶部