推理模型性能比肩世界先进水平！智谱GLM-4-0414系列模型昇腾MindIE部署实战

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

4月15日，智谱全新开源GLM-4-0414 系列模型，拥有32B/9B两个尺寸，涵盖基座、推理、沉思模型，均遵循 MIT 许可协议。其中，推理模型 GLM-Z1-32B-0414 性能媲美 DeepSeek-R1 等顶尖模型，实测推理速度可达 200 Tokens/秒。

魔乐社区同步首发，昇腾MindIE支持GLM-4-0414 系列模型开箱部署。

🔗模型链接如下，欢迎广大开发者下载体验！

•https://modelers.cn/models/MindIE/GLM-4-32B-Base-0414

•https://modelers.cn/models/MindIE/GLM-Z1-Rumination-32B-0414

•https://modelers.cn/models/MindIE/GLM-Z1-32B-0414

•https://modelers.cn/models/MindIE/GLM-Z1-9B-0414

•https://modelers.cn/models/MindIE/GLM-4-32B-0414

•https://modelers.cn/models/MindIE/GLM-4-9B-0414

基座模型 GLM-4-32B-0414 拥有 320 亿参数，其性能可与国内、外参数量更大的主流模型相媲美。该模型利用 15T 高质量数据进行预训练，特别纳入了丰富的推理类合成数据，为后续的强化学习扩展奠定了基础。GLM-4-32B-0414 在工程代码、Artifacts生成、函数调用、搜索问答及报告撰写等任务上均表现出色，部分 Benchmark 指标已接近甚至超越GPT-4o、DeepSeek-V3-0324（671B）等更大模型的水平。

GLM-Z1-32B-0414 是一款具备深度思考能力的推理模型。该模型在 GLM-4-32B-0414 的基础上，采用了冷启动与扩展强化学习策略，并针对数学、代码、逻辑等关键任务进行了深度优化训练。在部分任务上，GLM-Z1-32B-0414 凭借 32B 参数，其性能已能与拥有 671B 参数的 DeepSeek-R1 相媲美。

GLM-Z1-9B-0414是沿用了上述一系列技术，训练出的一个 9B 的小尺寸模型。虽然参数量更少，但 GLM-Z1-9B-0414 在数学推理及通用任务上依然表现出色，整体性能已跻身同尺寸开源模型的领先水平。特别是在资源受限的场景下，该模型可以很好地在效率与效果之间取得平衡，为需要轻量化部署的用户提供强有力的选择。

沉思模型GLM-Z1-Rumination-32B-0414代表了智谱对 AGI 未来形态的下一步探索。与一般推理模型不同，沉思模型通过更多步骤的深度思考来解决高度开放与复杂的问题。该模型支持“自主提出问题—搜索信息—构建分析—完成任务”的完整研究闭环，从而在研究型写作和复杂检索任务上的能力得到了显著提升。

以下为手把手教程：（以GLM-Z1-9B-0414+MindIE推理为例）

1. 下载权重

从魔乐社区下载模型权重：https://modelers.cn/models/zhipuai/GLM-Z1-9B-0414 （或点击文末阅读原文直达）

下载权重后更改权重路径下的config.json，修改”model_type”: “chatglm”；并增加键值对：”_name_or_path”: “THUDM/glm-4-9b-chat”，更改后样例：

2. 加载镜像

下载镜像并加载：

3. 硬件要求

1）部署 GLM-4-0414 系列模型至少需要1台Atlas 800I A2服务器

2）支持 TP =1/2/4/8 推理

4. 新建容器

目前提供的 MindIE 镜像预置了 GLM-Z1-9B-0414 系列模型推理脚本，无需再额外下载模型适配代码，直接新建容器即可。

如果您使用的是 root 用户镜像（例如从 Ascend Hub 上取得），并且可以使用特权容器，请使用以下命令启动容器：

如果您希望使用自行构建的普通用户镜像，并且规避容器相关权限风险，可以使用以下命令指定用户与设备：

更多镜像使用信息请参考官方镜像仓库文档：

https://gitee.com/ascend/ascend-docker-image/tree/dev/mindie

由于 GLM-4-0414 系列模型依赖最新版本 transformers，因此需要更改容器内 transformers 版本并使其兼容 PyTorch 2.1.0。

1. 首先进入容器：

2. 下载源码：

3. 修改 transformers/utils/generic.py 中 355 行左右 from torch.utils._pytree import register_pytree_node 为 from torch.utils._pytree import _register_pytree_node，使高版本 transformers 兼容 PyTorch 2.1.0：

4. 从源码安装 transformers：

另外若后续服务化出现错误，可能是读取 chat_template 时 ASCII 编码错误导致，需要修改 transformers/tokenization_utils_base.py 约 2160 行左右，从：

修改为：

确保 transforemrs>=4.51.3。

可能需要安装 einops：

纯模型推理

对话测试

进入 llm_model 路径

执行对话测试

服务化推理

打开配置文件

更改配置文件

拉起服务化

新建窗口测试(VLLM 接口)

https://www.hiascend.com/document/detail/zh/mindie/100/mindieservice/servicedev/mindie_service0001.html

欢迎体验

欢迎大家下载体验昇腾MindIE版GLM-4-0414 系列模型，也欢迎广大开发者在模型评论区留言交流！

推理模型性能比肩世界先进水平！智谱GLM-4-0414系列模型昇腾MindIE部署实战

相关推荐