安装 Dify
安装 Xinference
Xinference 支持通过 Docker 进行安装和部署,以下是详细的步骤:
1. 环境准备
-
操作系统:Linux、macOS 或 Windows(WSL2)。
-
Docker:版本需≥20.10。
-
GPU 支持(可选):如果需要 GPU 加速,需安装 NVIDIA Container Toolkit。
2. 拉取 Xinference Docker 镜像
Xinference 的官方镜像可在 Docker Hub 或阿里云容器镜像服务中拉取。运行以下命令:
bash复制
docker pull xprobe/xinference:latest
如果需要 CPU 版本,可拉取带
-cpu 后缀的镜像:bash复制
docker pull xprobe/xinference:latest-cpu
3. 启动 Docker 容器
根据硬件配置选择启动命令:
仅 CPU 模式
bash复制
docker run -d -p 9998:9997 xprobe/xinference:latest-cpu xinference-local -H 0.0.0.0 --log-level debug
启用 GPU 加速
确保宿主机已安装 NVIDIA 驱动和 CUDA,然后运行:
bash复制
docker run -d --gpus all -p 9998:9997 xprobe/xinference:latest xinference-local -H 0.0.0.0 --log-level debug
4. 验证部署
访问
http://localhost:9998,如果看到管理界面,则部署成功。5. 部署模型
可以通过命令行或 REST API 加载模型:
通过命令行加载模型
进入容器内部:
bash复制
docker exec -it xinference bash
然后启动模型,例如:
bash复制
xinference launch --model-name bge-reranker-large --model-type rerank
通过 REST API 加载模型
直接通过 API 动态加载模型:
bash复制
curl -X POST "http://localhost:9998/v1/models" \
-H "Content-Type: application/json" \
-d '{
"model_type": "rerank",
"model_name": "bge-reranker-large",
"model_format": "pytorch"
}'
6. 常见问题解决
GPU 无法识别
如果日志报错
Could not load library libcudnn.so,需确保宿主机已安装 NVIDIA 驱动,并重新安装 NVIDIA Container Toolkit。模型下载失败
如果模型下载失败,可以手动下载模型并挂载到容器中:
bash复制
docker run -d -p 9998:9997 -v /path/to/local/models:/root/.xinference/models xprobe/xinference:latest
端口冲突
如果端口被占用,可以修改端口映射:
bash复制
docker run -d -p 9999:9997 xprobe/xinference:latest
通过以上步骤,即可使用 Docker 部署 Xinference。

浙公网安备 33010602011771号