基于OpenVINO创建文本生成AI服务器

  1. 首先根据官方文档里的这条命令下载

    curl -L https://github.com/openvinotoolkit/model_server/releases/download/v2025.3/ovms_windows_python_on.zip -o ovms.zip
    tar -xf ovms.zip
    
  2. 运行这条命令 .\ovms\setupvars.bat

  3. 运行这条命令启动模型服务

    ovms.exe --source_model OpenVINO/Qwen3-0.6B-fp16-ov --model_repository_path models --rest_port 8000 --task text_generation --target_device GPU --cache_size 2
    

    首次运行的话会下载指定的模型,时间可能需要有点长,等待下载完之后下次运行的时候就会自动使用了。如果你要使用别的模型的话,你就更改里面的OpenVINO/Qwen3-0.6B-fp16-ov这个部分就可以;如果要以CPU或NPU模式运行的话,就把里面的GPU换掉就好。

  4. 测试模型是否可以成功使用的话可以使用如下这条命令,注意端口和模型名称要和你的对应

     curl -s http://localhost:8000/v3/chat/completions \
      -H "Content-Type: application/json" \
      -d '{
        "model": "OpenVINO/Qwen3-0.6B-fp16-ov",
        "temperature": 0,
        "stream": false,
        "messages": [
          { "role": "system", "content": "You are a helpful assistant. /no_think" },
          { "role": "user", "content": "What are the 3 main tourist attractions in Paris" }
        ]
      }'
    
posted @ 2025-12-13 16:12  iMath  阅读(1)  评论(0)    收藏  举报
关于我和本博客(iMath.cnblogs.com)