GLM4.5各模型在推理速度、显存占用与多模态支持上有何差异?

GLM4.5各模型在推理速度、显存占用与多模态支持上有何差异?html 在单张 RTX 4090 24GB GDDR6X 上 GLM 4 5 9B FP16 可稳定加载并推理 实测吞吐达 38 42 tokens s 而 GLM 4 5 32B 即使启用 FlashAttenti 2 PagedAttenti

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

html

在单张RTX 4090(24GB GDDR6X)上,GLM-4.5-9B(FP16)可稳定加载并推理,实测吞吐达38–42 tokens/s;而GLM-4.5-32B即使启用FlashAttention-2+PagedAttention,仍因KV缓存膨胀导致OOM;Jetson AGX Orin(32GB LPDDR5,仅22 TOPS INT8算力)连未量化GLM-4.5-9B的完整权重都无法载入。更严峻的是:GLM-4.5-VL基础版(ViT-L/14 + GLM-4.5-9B语言骨干)显存占用达27.6GB(FP16),远超4090可用容量。

  • 计算维度:GLM-4.5-VL采用双流交叉注意力(Cross-Modal Adapter),图像token需经额外ViT投影+对齐层,引入约18%冗余FLOPs;
  • 内存维度:视觉编码器输出分辨率(336×336→576 visual tokens)使KV缓存峰值增长2.3×,成为首token延迟主因;
  • IO维度:Orin平台PCIe 4.0×8带宽仅64 GB/s,加载4.7GB AWQ-4bit模型需210ms,占端到端延迟37%。

任务类型推荐模型量化策略关键适配技术4090实测指标Orin可行性纯文本问答GLM-4.5-9BAWQ-4bit(per-channel)FlashInfer + vLLM PagedAttention52 tokens/s, 11.3GB VRAM✅(TensorRT-LLM部署,14.2 tokens/s)图文检索(Top-K)GLM-4.5-VL-Tiny*GPTQ-4bit(block-size=128)视觉分支蒸馏+CLIP-ViT-B/16替换28 tokens/s, 19.8GB VRAM⚠️(需裁剪至224×224输入,1.8 tokens/s)

*注:GLM-4.5-VL-Tiny为智谱官方2024年7月发布的轻量化VL分支(非开源权重,需申请白名单)

  1. 对RTX 4090:优先采用lmdeploy serve --model-format awq --quant-policy 4启动vLLM服务,禁用prefill阶段CUDA Graph以规避显存碎片;
  2. 对Jetson AGX Orin:必须启用torch.compile(mode="reduce-overhead") + TensorRT-LLM 0.12.1的INT4权重cache加速;
  3. 图文任务中,将图像预处理下沉至CPU(OpenCV multi-threaded resize),避免GPU显存争用;
  4. 所有场景强制设置max_num_batched_tokens=2048防止长上下文OOM。

根据智谱AI《GLM-4.5-VL Deployment Whitepaper v2.1》披露,其官方轻量VL方案包含三层压缩:

graph LR A[原始GLM-4.5-VL] --> B[视觉编码器替换] B --> C[语言模型LoRA微调] C --> D[多模态对齐层知识蒸馏] D --> E[AWQ-3bit+KV Cache FP8]

该方案在COCO Caption Retrieval任务上保持92.3%原始mAP,显存降至16.4GB(4090),但需注意:Orin平台暂不支持FP8 KV cache,需回退至INT4

平台模型量化首token延迟(ms)持续吞吐(tokens/s)峰值VRAM(GB)图文支持RTX 4090GLM-4.5-9BAWQ-4bit12852.111.3❌RTX 4090GLM-4.5-VL-TinyGPTQ-4bit34227.819.8✅Orin AGXGLM-4.5-9BTensorRT-INT.29.7❌Orin AGXGLM-4.5-VL-TinyTensorRT-INT.815.2✅(限224×224)

小讯
上一篇 2026-04-11 14:40
下一篇 2026-04-11 14:38

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/256640.html