智谱GLM-5 1 day适配华为昇腾(国产),744B模型单机高效推理,全量保姆配置过程

 

在 华为昇腾 Atlas 800T A3 服务器 上完成 智谱 GLM-5(744B)模型单机全量推理部署 的 完整、端到端、可复现的配置流程。本指南覆盖 从裸机驱动安装 模型下载 容器化部署 → API 服务启动 性能验证 全过程,适用于 2026年2月最新环境,严格依据官方文档与社区实践整理。


通过网盘分享的文件:麒麟kylin linux 安装CDH v7.1指南

链接:https://pan.baidu.com/s/1wbRWJUSyElplFgse_NyOwg?pwd=pgxn 提取码:pgxn

通过网盘分享的文件:Hadoop

链接: https://pan.baidu.com/s/1PDj6dySUNHotNABp7d1a0w?pwd=57is 提取码: 57is

 

🧱 一、硬件与系统准备

硬件要求

  • 服务器型号:Atlas 800T A3(8×Ascend 910B NPU)
  • CPU:≥ 64 核(如 Kunpeng 920)
  • 内存:≥ 512 GB DDR4
  • 存储:≥ 2 TB NVMe SSD(建议 RAID 0)
  • 网络:双万兆网卡(用于多节点通信,单机可忽略)

操作系统

⚠️ 禁止使用 CentOS / Ubuntu!昇腾驱动仅官方支持 Euler 系列。


🔧 二、安装 NPU 驱动与 CANN 工具链(首次部署必做)

若已安装 CANN ≥ 8.0.RC1,请跳至第三步。

1. 创建运行用户

bash

groupadd HwHiAiUser

useradd -g HwHiAiUser -d /home/HwHiAiUser -m HwHiAiUser -s /bin/bash

2. 下载驱动与固件(以 CANN 8.0.RC2 为例)

从 昇腾社区 获取:

  • Ascend-hdk-atlas800t-a3-npu-driver_8.0.RC2_linux-aarch64.run
  • Ascend-hdk-atlas800t-a3-npu-firmware_8.0.RC2.run
  • Ascend-cann-toolkit_8.0.RC2_linux-aarch64.run

3. 安装驱动(按顺序!)

bash

# 赋权

chmod +x *.run

 

# 安装驱动(指定用户)

./Ascend-hdk-atlas800t-a3-npu-driver_8.0.RC2_linux-aarch64.run \

  --full --install-for-all \

  --install-username=HwHiAiUser --install-usergroup=HwHiAiUser

 

# 安装固件

./Ascend-hdk-atlas800t-a3-npu-firmware_8.0.RC2.run --full

 

# 安装 CANN Toolkit(开发依赖)

./Ascend-cann-toolkit_8.0.RC2_linux-aarch64.run –full

4. 验证安装

bash

reboot  # 必须重启!

 

npu-smi info

# 应输出 8 张 NPU 卡信息(Device ID 0~7)

📦 三、下载 GLM-5 W4A8 量化模型

原始 BF16 模型(1.5TB)无法单机部署,必须使用 W4A8 量化版(约 300GB)。

bash

mkdir -p /root/.cache/glm-5-w4a8

cd /root/.cache/glm-5-w4a8

 

# 下载量化模型(AtomGit AI 提供)

wget https://ai.atomgit.com/atomgit-ascend/GLM-5-w4a8/model.tar.gz

 

# 解压

tar -xzf model.tar.gz

 

# 验证结构(应含 config.json, tokenizer, pytorch_model*.bin)

ls -lh

🔗 官方地址:https://ai.atomgit.com/atomgit-ascend/GLM-5-w4a8


🐳 四、拉取 vLLM-Ascend 推理镜像

bash

# 使用 DaoCloud 加速镜像

export IMAGE=m.daocloud.io/quay.io/ascend/vllm-ascend:glm5-a3-openeuler

 

docker pull $IMAGE

✅ 镜像特性:

  • 基于 openEuler 22.03
  • 预装 CANN 8.0.RC2 + torch-npu 2.1.0 + vLLM-Ascend
  • 内置 Lightning Indexer / Sparse Flash Attention 融合算子

▶️ 五、启动推理服务(关键脚本)

创建 start_glm5.sh:

Bash

#!/bin/bash

 

IMAGE="m.daocloud.io/quay.io/ascend/vllm-ascend:glm5-a3-openeuler"

MODEL_PATH="/root/.cache/glm-5-w4a8"

 

docker run --rm \

  --name glm5-inference \

  --net=host \

  --shm-size=16g \

  --device /dev/davinci0 \

  --device /dev/davinci1 \

  --device /dev/davinci2 \

  --device /dev/davinci3 \

  --device /dev/davinci4 \

  --device /dev/davinci5 \

  --device /dev/davinci6 \

  --device /dev/davinci7 \

  --device /dev/davinci_manager \

  --device /dev/devmm_svm \

  --device /dev/hisi_hdc \

  -v /usr/local/dcmi:/usr/local/dcmi \

  -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \

  -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \

  -v /etc/ascend_install.info:/etc/ascend_install.info \

  -v /root/.cache:/root/.cache \

  $IMAGE \

  python -m vllm.entrypoints.openai.api_server \

    --model $MODEL_PATH \

    --trust-remote-code \

    --dtype bfloat16 \

    --tensor-parallel-size 8 \

    --max-model-len 200000 \

    --port 8000 \

--disable-log-stats

赋予执行权限并运行:

bash

chmod +x start_glm5.sh

nohup ./start_glm5.sh > glm5.log 2>&1 &

🟢 成功标志:glm5.log 中出现
Uvicorn running on http://0.0.0.0:8000

🧪 六、API 调用与性能验证

1. 基础调用测试

bash

curl http://localhost:8000/v1/chat/completions \

  -H "Content-Type: application/json" \

  -d '{

    "model": "glm-5",

    "messages": [{"role": "user", "content": "你好!"}],

    "max_tokens": 50

  }'

2. 长上下文测试(200K

python

# generate_long.py

import requests

text = "A" * 190000  # 模拟长输入

resp = requests.post("http://localhost:8000/v1/completions", json={

    "prompt": text,

    "max_tokens": 1000

})

print("Status:", resp.status_code)

3. 性能监控

bash

# 实时查看 NPU 利用率

npu-smi dperf -t 1

 

# 查看日志吞吐

tail -f glm5.log | grep "tokens/s"

💡 预期性能(Atlas 800T A3):

  • 首 Token 延迟:< 1.5 秒
  • 解码速度:> 45 tokens/s
  • 显存占用:< 320 GB

🔍 七、故障排查清单

表格

现象

原因

解决方案

npu-smi: command not found

驱动未装或 PATH 错误

检查 /usr/local/bin/npu-smi 是否存在

容器启动失败

设备未挂载全

确保挂载 davinci0~7 + manager + svm + hdc

模型加载卡住

权限不足

chown -R root:root /root/.cache/glm-5-w4a8

OOM(显存溢出)

用了 BF16 模型

确认使用 W4A8 量化版

Token 生成极慢

未启用 MTP/DSA

检查模型是否含 mtp_config.json


📚 官方资源汇总


总结

通过以上 六步全流程,您已在 单台 Atlas 800T A3 上成功部署 744B 参数的 GLM-5,实现:

  • 200K 超长上下文
  • OpenAI 兼容 API
  • 生产级推理吞吐

这标志着 “国产大模型 + 国产算力” 的全栈自主可控方案已具备 企业级落地能力,为信创、金融、政务等高安全场景提供坚实底座。

 

posted on 2026-02-25 10:03  肥仔鱼Liam  阅读(43)  评论(0)    收藏  举报