2026年【AI推理部署教程】使用 vLLM 运行智谱 GLM-4.5V 视觉语言模型推理服务

【AI推理部署教程】使用 vLLM 运行智谱 GLM-4.5V 视觉语言模型推理服务GLM 4 5V 是智谱 AI 发布的新一代多模态大语言模型 Visual Language Model VLM 具备图像理解 文本生成 能力 结合 vLLM 高性能推理框架 可以实现低延迟 高吞吐的在线推理服务部署 本文将带你从环境准备 到运行推理 API 服务 完成一个可直接调用的 GLM 4 5V AWQ 推理平台 1 新建 conda 环境 首先查看当前已有的

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



GLM-4.5V 是智谱 AI 发布的新一代多模态大语言模型(Visual Language Model,VLM),具备图像理解 + 文本生成能力。
结合 vLLM 高性能推理框架,可以实现低延迟、高吞吐的在线推理服务部署。

本文将带你从环境准备运行推理 API 服务,完成一个可直接调用的 GLM-4.5V-AWQ 推理平台。
【AI推理部署教程】使用 vLLM 运行智谱 GLM-4.5V 视觉语言模型推理服务


1. 新建 conda 环境

首先查看当前已有的 conda 环境(可选,用于确认要克隆的环境名称):

 
   

克隆一个已有可用的深度学习环境:

GPT plus 代充 只需 145
  • 为新环境名称
  • 为被克隆的环境(可换成你已有的 CUDA/PyTorch 环境)

激活新环境:

 
   

2. 确认 PyTorch 与 CUDA 版本

GPT plus 代充 只需 145

示例输出:

 
    

3. 确认 版本

是高效注意力计算库,用于加速推理。

GPT plus 代充 只需 145

确保版本与 CUDA / PyTorch 对应,否则会运行时报错。


4. 检查 transformers 版本

 
      

示例输出:

GPT plus 代充 只需 145

1. 模型压缩

为了降低推理显存占用,我们使用 AWQ(Activation-aware Weight Quantization)量化

 
       

压缩后的优势:

  • 显存占用显著降低
  • 部署所需硬件资源减少
  • 推理速度提升

压缩后模型大小示例:

GPT plus 代充 只需 145

1. 启动命令

 
        

2. 参数详细解释

参数 说明 要部署的模型路径(已AWQ量化) 服务对外的模型名称,客户端调用需一致 使用适配 GLM-4.5 系列的工具调用解析器 推理逻辑解析器 允许模型自动选择外部工具 针对 MoE 架构的专家并行计算 最大并发请求序列数 使用 2 张 GPU 进行张量并行

Python 调用示例

GPT plus 代充 只需 145

示例输出:

 
          

  1. 环境匹配是关键:PyTorch / CUDA / flash_attn 必须版本对应
  2. AWQ量化极大降低显存占用,推荐在资源有限时使用
  3. vLLM 的 tensor-parallel-size 与 GPU 数量匹配,否则会报错
  4. 可通过 调整并发,平衡吞吐与延迟

小讯
上一篇 2026-03-13 15:45
下一篇 2026-03-13 15:47

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/216673.html