vLLM Ascend 是最优解吗？基于 mis-tei 实现昇腾上的高性能 Embedding/Reranker 模型推理

在昇腾（Ascend）生态中，vLLM 等推理引擎在生成类任务中表现出色，已被广泛采用。而在 Embedding 与 Reranker 等检索相关场景下，mis-tei 作为专用推理组件，同样提供了高效且更贴合场景的能力。

mis-tei 专注于文本向量生成与重排序能力，广泛应用于检索增强（RAG）、语义搜索等场景。

但在实际落地过程中，我们发现：

官方镜像可以使用，但接入成本较高
路径依赖、参数配置、运行方式存在一定门槛
在 GPUStack 中集成时，需要额外适配

基于这些问题，我们对官方镜像进行了重打包与简化处理，并以社区镜像形式提供，大幅降低接入复杂度。

本文将基于社区镜像，演示如何在 GPUStack 中接入 mis-tei 后端，并进行高性能 Embedding/Reranker 模型推理。

镜像说明

1. Ascend 官方镜像

swr.cn-south-1.myhuaweicloud.com/ascendhub/mis-tei:7.3.0-300I-Duo-aarch64
swr.cn-south-1.myhuaweicloud.com/ascendhub/mis-tei:7.3.0-800I-A2-aarch64
swr.cn-south-1.myhuaweicloud.com/ascendhub/mis-tei:7.3.0-800I-A3-aarch64

2. GPUStack 社区镜像（推荐）

swr.cn-south-1.myhuaweicloud.com/gpustackcommunity/mis-tei:7.3.0-300I-Duo-aarch64
swr.cn-south-1.myhuaweicloud.com/gpustackcommunity/mis-tei:7.3.0-800I-A2-aarch64
swr.cn-south-1.myhuaweicloud.com/gpustackcommunity/mis-tei:7.3.0-800I-A3-aarch64

3. 优化点说明

相比官方镜像，社区版本主要做了以下优化：

✅ 简化启动脚本，优化默认参数配置
✅ 支持任意参数透传，增强灵活性
✅ 开箱即用接入 GPUStack，降低使用门槛

重打包的具体实现细节，可参考社区后端仓库：
https://github.com/gpustack/community-inference-backends/tree/main/mis-tei

接入 mis-tei 后端

在 GPUStack 中，可以通过自定义后端的方式接入 mis-tei。

操作步骤

进入 推理后端 页面
点击右上角 添加后端 → 自定义
按如下示例填写参数

⚠️ 注意：镜像需根据昇腾设备型号选择

芯片型号	镜像 TAG
800I-A2（910B）	`7.3.0-800I-A2-aarch64`
800I-A3（910C）	`7.3.0-800I-A3-aarch64`
300I-Duo（310P）	`7.3.0-300I-Duo-aarch64`

YAML 配置（可直接导入）

backend_name: mis-tei-custom
health_check_path: /health
default_run_command: --model-id {{model_path}} -p {{port}}
default_env:
  ENABLE_BOOST: "True"
  AUTO_TRUNCATE: "true"
version_configs:
  7.3.0-a2:
    image_name: swr.cn-south-1.myhuaweicloud.com/gpustackcommunity/mis-tei:7.3.0-800I-A2-aarch64
    custom_framework: cann
  7.3.0-a3:
    image_name: swr.cn-south-1.myhuaweicloud.com/gpustackcommunity/mis-tei:7.3.0-800I-A3-aarch64
    custom_framework: cann
  7.3.0-310p:
    image_name: swr.cn-south-1.myhuaweicloud.com/gpustackcommunity/mis-tei:7.3.0-300I-Duo-aarch64
    custom_framework: cann
default_version: 7.3.0-a2

⚠️ 注意：从公众号或网页复制 YAML 时，可能会混入不可见字符（如 NBSP），导致解析失败。
建议从 GitHub 原文件中复制：https://github.com/gpustack/community-inference-backends/blob/main/mis-tei/spec.yaml