智谱GLM-5 1 day适配华为昇腾（国产），744B模型单机高效推理，全量保姆配置过程

在 华为昇腾 Atlas 800T A3 服务器 上完成 智谱 GLM-5（744B）模型单机全量推理部署 的 完整、端到端、可复现的配置流程。本指南覆盖 从裸机驱动安装 → 模型下载 → 容器化部署 → API 服务启动 → 性能验证 全过程，适用于 2026年2月最新环境，严格依据官方文档与社区实践整理。

通过网盘分享的文件：麒麟kylin linux 安装CDH v7.1指南

链接:https://pan.baidu.com/s/1wbRWJUSyElplFgse_NyOwg?pwd=pgxn 提取码:pgxn

通过网盘分享的文件：Hadoop

链接: https://pan.baidu.com/s/1PDj6dySUNHotNABp7d1a0w?pwd=57is 提取码: 57is

🧱 一、硬件与系统准备

✅ 硬件要求

服务器型号：Atlas 800T A3（8×Ascend 910B NPU）
CPU：≥ 64 核（如 Kunpeng 920）
内存：≥ 512 GB DDR4
存储：≥ 2 TB NVMe SSD（建议 RAID 0）
网络：双万兆网卡（用于多节点通信，单机可忽略）

✅ 操作系统

推荐 OS：openEuler 22.03 LTS ARM64
（ISO 下载：https://www.openeuler.org/zh/download/）

⚠️ 禁止使用 CentOS / Ubuntu！昇腾驱动仅官方支持 Euler 系列。

🔧 二、安装 NPU 驱动与 CANN 工具链（首次部署必做）

若已安装 CANN ≥ 8.0.RC1，请跳至第三步。

1. 创建运行用户

bash

groupadd HwHiAiUser

useradd -g HwHiAiUser -d /home/HwHiAiUser -m HwHiAiUser -s /bin/bash

2. 下载驱动与固件（以 CANN 8.0.RC2 为例）

从昇腾社区获取：

Ascend-hdk-atlas800t-a3-npu-driver_8.0.RC2_linux-aarch64.run
Ascend-hdk-atlas800t-a3-npu-firmware_8.0.RC2.run
Ascend-cann-toolkit_8.0.RC2_linux-aarch64.run

3. 安装驱动（按顺序！）

bash

# 赋权

chmod +x *.run

# 安装驱动（指定用户）

./Ascend-hdk-atlas800t-a3-npu-driver_8.0.RC2_linux-aarch64.run \

--full --install-for-all \

--install-username=HwHiAiUser --install-usergroup=HwHiAiUser

# 安装固件

./Ascend-hdk-atlas800t-a3-npu-firmware_8.0.RC2.run --full

# 安装 CANN Toolkit（开发依赖）

./Ascend-cann-toolkit_8.0.RC2_linux-aarch64.run –full

4. 验证安装

bash

reboot # 必须重启！

npu-smi info

# 应输出 8 张 NPU 卡信息（Device ID 0~7）

📦 三、下载 GLM-5 W4A8 量化模型

原始 BF16 模型（1.5TB）无法单机部署，必须使用 W4A8 量化版（约 300GB）。

bash

mkdir -p /root/.cache/glm-5-w4a8

cd /root/.cache/glm-5-w4a8

# 下载量化模型（AtomGit AI 提供）

wget https://ai.atomgit.com/atomgit-ascend/GLM-5-w4a8/model.tar.gz

# 解压

tar -xzf model.tar.gz

# 验证结构（应含 config.json, tokenizer, pytorch_model*.bin）

ls -lh

🔗 官方地址：https://ai.atomgit.com/atomgit-ascend/GLM-5-w4a8

🐳 四、拉取 vLLM-Ascend 推理镜像

bash

# 使用 DaoCloud 加速镜像

export IMAGE=m.daocloud.io/quay.io/ascend/vllm-ascend:glm5-a3-openeuler

docker pull $IMAGE

✅ 镜像特性：

基于 openEuler 22.03
预装 CANN 8.0.RC2 + torch-npu 2.1.0 + vLLM-Ascend
内置 Lightning Indexer / Sparse Flash Attention 融合算子

▶️ 五、启动推理服务（关键脚本）

创建 start_glm5.sh：

Bash

#!/bin/bash

IMAGE="m.daocloud.io/quay.io/ascend/vllm-ascend:glm5-a3-openeuler"

MODEL_PATH="/root/.cache/glm-5-w4a8"

docker run --rm \

--name glm5-inference \

--net=host \

--shm-size=16g \

--device /dev/davinci0 \

--device /dev/davinci1 \

--device /dev/davinci2 \

--device /dev/davinci3 \

--device /dev/davinci4 \

--device /dev/davinci5 \

--device /dev/davinci6 \

--device /dev/davinci7 \

--device /dev/davinci_manager \

--device /dev/devmm_svm \

--device /dev/hisi_hdc \

-v /usr/local/dcmi:/usr/local/dcmi \

-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \

-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \

-v /etc/ascend_install.info:/etc/ascend_install.info \

-v /root/.cache:/root/.cache \

$IMAGE \

python -m vllm.entrypoints.openai.api_server \

--model $MODEL_PATH \

--trust-remote-code \

--dtype bfloat16 \

--tensor-parallel-size 8 \

--max-model-len 200000 \

--port 8000 \

--disable-log-stats

赋予执行权限并运行：

bash

chmod +x start_glm5.sh

nohup ./start_glm5.sh > glm5.log 2>&1 &

🟢 成功标志：glm5.log 中出现
Uvicorn running on http://0.0.0.0:8000

🧪 六、API 调用与性能验证

1. 基础调用测试

bash

curl http://localhost:8000/v1/chat/completions \

-H "Content-Type: application/json" \

-d '{

"model": "glm-5",

"messages": [{"role": "user", "content": "你好！"}],

"max_tokens": 50

2. 长上下文测试（200K）

python

# generate_long.py

import requests

text = "A" * 190000 # 模拟长输入

resp = requests.post("http://localhost:8000/v1/completions", json={

"prompt": text,

"max_tokens": 1000

})

print("Status:", resp.status_code)

3. 性能监控

bash

# 实时查看 NPU 利用率

npu-smi dperf -t 1

# 查看日志吞吐

tail -f glm5.log | grep "tokens/s"

💡 预期性能（Atlas 800T A3）：

首 Token 延迟：< 1.5 秒
解码速度：> 45 tokens/s
显存占用：< 320 GB

🔍 七、故障排查清单

表格

现象	原因	解决方案
npu-smi: command not found	驱动未装或 PATH 错误	检查 /usr/local/bin/npu-smi 是否存在
容器启动失败	设备未挂载全	确保挂载 davinci0~7 + manager + svm + hdc
模型加载卡住	权限不足	chown -R root:root /root/.cache/glm-5-w4a8
OOM（显存溢出）	用了 BF16 模型	确认使用 W4A8 量化版
Token 生成极慢	未启用 MTP/DSA	检查模型是否含 mtp_config.json

📚 官方资源汇总

模型仓库：https://atomgit.com/zai-org/GLM-5
部署示例：https://atomgit.com/zai-org/GLM-5-code/blob/main/example/ascend.md
量化工具：https://atomgit.com/Ascend/msmodelslim
昇腾文档：https://www.hiascend.com/document

✅ 总结

通过以上 六步全流程，您已在 单台 Atlas 800T A3 上成功部署 744B 参数的 GLM-5，实现：

200K 超长上下文
OpenAI 兼容 API
生产级推理吞吐

这标志着 “国产大模型 + 国产算力” 的全栈自主可控方案已具备 企业级落地能力，为信创、金融、政务等高安全场景提供坚实底座。

posted on 2026-02-25 10:03 肥仔鱼Liam 阅读(1247) 评论(1) 收藏举报

刷新页面返回顶部

公告