在 华为昇腾 Atlas 800T A3 服务器 上完成 智谱 GLM-5(744B)模型单机全量推理部署 的 完整、端到端、可复现的配置流程。本指南覆盖 从裸机驱动安装 → 模型下载 → 容器化部署 → API 服务启动 → 性能验证 全过程,适用于 2026年2月最新环境,严格依据官方文档与社区实践整理。
通过网盘分享的文件:麒麟kylin linux 安装CDH v7.1指南
链接:https://pan.baidu.com/s/1wbRWJUSyElplFgse_NyOwg?pwd=pgxn 提取码:pgxn
通过网盘分享的文件:Hadoop
链接: https://pan.baidu.com/s/1PDj6dySUNHotNABp7d1a0w?pwd=57is 提取码: 57is
🧱 一、硬件与系统准备
✅ 硬件要求
- 服务器型号:Atlas 800T A3(8×Ascend 910B NPU)
- CPU:≥ 64 核(如 Kunpeng 920)
- 内存:≥ 512 GB DDR4
- 存储:≥ 2 TB NVMe SSD(建议 RAID 0)
- 网络:双万兆网卡(用于多节点通信,单机可忽略)
✅ 操作系统
- 推荐 OS:openEuler 22.03 LTS ARM64
(ISO 下载:https://www.openeuler.org/zh/download/)
⚠️ 禁止使用 CentOS / Ubuntu!昇腾驱动仅官方支持 Euler 系列。
🔧 二、安装 NPU 驱动与 CANN 工具链(首次部署必做)
若已安装 CANN ≥ 8.0.RC1,请跳至第三步。
1. 创建运行用户
bash
groupadd HwHiAiUser
useradd -g HwHiAiUser -d /home/HwHiAiUser -m HwHiAiUser -s /bin/bash
2. 下载驱动与固件(以 CANN 8.0.RC2 为例)
从 昇腾社区 获取:
- Ascend-hdk-atlas800t-a3-npu-driver_8.0.RC2_linux-aarch64.run
- Ascend-hdk-atlas800t-a3-npu-firmware_8.0.RC2.run
- Ascend-cann-toolkit_8.0.RC2_linux-aarch64.run
3. 安装驱动(按顺序!)
bash
# 赋权
chmod +x .run
# 安装驱动(指定用户)
./Ascend-hdk-atlas800t-a3-npu-driver_8.0.RC2_linux-aarch64.run
–full –install-for-all
–install-username=HwHiAiUser –install-usergroup=HwHiAiUser
# 安装固件
./Ascend-hdk-atlas800t-a3-npu-firmware_8.0.RC2.run –full
# 安装 CANN Toolkit(开发依赖)
./Ascend-cann-toolkit_8.0.RC2_linux-aarch64.run –full
4. 验证安装
bash
reboot # 必须重启!
npu-smi info
# 应输出 8 张 NPU 卡信息(Device ID 0~7)
📦 三、下载 GLM-5 W4A8 量化模型
原始 BF16 模型(1.5TB)无法单机部署,必须使用 W4A8 量化版(约 300GB)。
bash
mkdir -p /root/.cache/glm-5-w4a8
cd /root/.cache/glm-5-w4a8
# 下载量化模型(AtomGit AI 提供)
wget https://ai.atomgit.com/atomgit-ascend/GLM-5-w4a8/model.tar.gz
# 解压
tar -xzf model.tar.gz
# 验证结构(应含 config.json, tokenizer, pytorch_model.bin)
ls -lh
🔗 官方地址:https://ai.atomgit.com/atomgit-ascend/GLM-5-w4a8
🐳 四、拉取 vLLM-Ascend 推理镜像
bash
# 使用 DaoCloud 加速镜像
export IMAGE=m.daocloud.io/quay.io/ascend/vllm-ascend:glm5-a3-openeuler
docker pull \(IMAGE
✅ 镜像特性:
- 基于 openEuler 22.03
- 预装 CANN 8.0.RC2 + torch-npu 2.1.0 + vLLM-Ascend
- 内置 Lightning Indexer / Sparse Flash Attention 融合算子
▶️ 五、启动推理服务(关键脚本)
创建 start_glm5.sh:
Bash
#!/bin/bash
IMAGE="m.daocloud.io/quay.io/ascend/vllm-ascend:glm5-a3-openeuler"
MODEL_PATH="/root/.cache/glm-5-w4a8"
docker run --rm
--name glm5-inference
--net=host
--shm-size=16g
--device /dev/davinci0
--device /dev/davinci1
--device /dev/davinci2
--device /dev/davinci3
--device /dev/davinci4
--device /dev/davinci5
--device /dev/davinci6
--device /dev/davinci7
--device /dev/davinci_manager
--device /dev/devmm_svm
--device /dev/hisi_hdc
-v /usr/local/dcmi:/usr/local/dcmi
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi
-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/
-v /etc/ascend_install.info:/etc/ascend_install.info
-v /root/.cache:/root/.cache
\)IMAGE
python -m vllm.entrypoints.openai.api_server
–model $MODEL_PATH
–trust-remote-code
–dtype bfloat16
–tensor-parallel-size 8
–max-model-len
–port 8000
–disable-log-stats
赋予执行权限并运行:
bash
chmod +x start_glm5.sh
nohup ./start_glm5.sh > glm5.log 2>&1 &
🧪 六、API 调用与性能验证
1. 基础调用测试
bash
curl http://localhost:8000/v1/chat/completions
-H “Content-Type: application/json”
-d ‘{
“model”: “glm-5”,
“messages”: [{“role”: “user”, “content”: “你好!”}],
“max_tokens”: 50
}’
2. 长上下文测试(200K)
python
# generate_long.py
import requests
text = “A” * # 模拟长输入
resp = requests.post(”http://localhost:8000/v1/completions”, json={
“prompt”: text,
“max_tokens”: 1000
})
print(“Status:”, resp.status_code)
3. 性能监控
bash
# 实时查看 NPU 利用率
npu-smi dperf -t 1
# 查看日志吞吐
tail -f glm5.log | grep “tokens/s”
💡 预期性能(Atlas 800T A3):
- 首 Token 延迟:< 1.5 秒
- 解码速度:> 45 tokens/s
- 显存占用:< 320 GB
🔍 七、故障排查清单
表格
现象
原因
解决方案
npu-smi: command not found
驱动未装或 PATH 错误
检查 /usr/local/bin/npu-smi 是否存在
容器启动失败
设备未挂载全
确保挂载 davinci0~7 + manager + svm + hdc
模型加载卡住
权限不足
chown -R root:root /root/.cache/glm-5-w4a8
OOM(显存溢出)
用了 BF16 模型
确认使用 W4A8 量化版
Token 生成极慢
未启用 MTP/DSA
检查模型是否含 mt
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/248144.html