2026年智谱发布GLM-4.5V,全球开源多模态推理新标杆,Day0推理微调实战教程到!

智谱发布GLM-4.5V,全球开源多模态推理新标杆,Day0推理微调实战教程到!视觉语言大模型 VLM 已经成为智能系统的关键基石 随着真实世界的智能任务越来越复杂 VLM 模型也亟需在基本的多模态感知之外 逐渐增强复杂任务中的推理能力 提升自身的准确性 全面性和智能化程度 使得复杂问题解决 长上下文理解 多模态智能体等智能任务成为可能 刚刚 智谱发布了最新的 GLM 4 5V 开源工作 全球 100B 级效果**的开源视觉推理模型 已同步在魔搭社区开源 模型合集

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



视觉语言大模型(VLM)已经成为智能系统的关键基石。随着真实世界的智能任务越来越复杂,VLM模型也亟需在基本的多模态感知之外,逐渐增强复杂任务中的推理能力,提升自身的准确性、全面性和智能化程度,使得复杂问题解决、长上下文理解、多模态智能体等智能任务成为可能。

刚刚,智谱发布了最新的 GLM-4.5V 开源工作——全球100B级效果**的开源视觉推理模型,已同步在魔搭社区开源。

模型合集:

https://modelscope.cn/collections/GLM-45V-8b471c8f97154e

 

GLM-4.5V 基于智谱新一代旗舰文本基座模型 GLM-4.5-Air(106B参数,12B激活),延续 GLM-4.1V-Thinking 技术路线,在 42 个公开视觉多模态榜单中综合效果达到同级别开源模型 SOTA 性能,涵盖图像、视频、文档理解以及 GUI Agent 等常见任务。


 

在多模态榜单之外,研究团队更重视模型在真实场景下的表现与可用性。GLM-4.5V 通过高效混合训练,具备覆盖不同种视觉内容的处理能力,实现全场景视觉推理,包括:

  • 图像推理(场景理解、复杂多图分析、位置识别)
  • 视频理解(长视频分镜分析、事件识别)
  • GUI 任务(屏幕读取、图标识别、桌面操作辅助)
  • 复杂图表与长文档解析(研报分析、信息提取)
  • Grounding 能力(精准定位视觉元素)
     

环境安装

对于和:

 
  

vLLM

GPT plus 代充 只需 145

vLLM推理

 
  

SGlang推理

GPT plus 代充 只需 145

我们介绍使用ms-swift对GLM-4.5V进行训练。ms-swift是魔搭社区官方提供的大模型与多模态大模型训练部署框架。

ms-swift开源地址:

https://github.com/modelscope/ms-swift

研究团队将展示可运行的微调demo,并给出自定义数据集的格式。

在开始微调之前,请确保您的环境已准备妥当。

 
  

如果您需要自定义数据集微调模型,你可以将数据准备成以下格式。

GPT plus 代充 只需 145

 
  

训练完成后,使用以下命令进行推理:

GPT plus 代充 只需 145

推送模型到ModelScope:

 
  

点击链接, 即可跳转模型合集~

https://modelscope.cn/collections/GLM-45V-8b471c8f97154e

小讯
上一篇 2026-03-13 21:49
下一篇 2026-03-13 21:51

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/217213.html