基于OpenVINO创建文本生成AI服务器
-
首先根据官方文档里的这条命令下载
curl -L https://github.com/openvinotoolkit/model_server/releases/download/v2025.3/ovms_windows_python_on.zip -o ovms.zip tar -xf ovms.zip -
运行这条命令
.\ovms\setupvars.bat -
运行这条命令启动模型服务
ovms.exe --source_model OpenVINO/Qwen3-0.6B-fp16-ov --model_repository_path models --rest_port 8000 --task text_generation --target_device GPU --cache_size 2首次运行的话会下载指定的模型,时间可能需要有点长,等待下载完之后下次运行的时候就会自动使用了。如果你要使用别的模型的话,你就更改里面的
OpenVINO/Qwen3-0.6B-fp16-ov这个部分就可以;如果要以CPU或NPU模式运行的话,就把里面的GPU换掉就好。 -
测试模型是否可以成功使用的话可以使用如下这条命令,注意端口和模型名称要和你的对应
curl -s http://localhost:8000/v3/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "OpenVINO/Qwen3-0.6B-fp16-ov", "temperature": 0, "stream": false, "messages": [ { "role": "system", "content": "You are a helpful assistant. /no_think" }, { "role": "user", "content": "What are the 3 main tourist attractions in Paris" } ] }'
浙公网安备 33010602011771号
