7月28日晚21点,智谱官方公众号发布新一代旗舰模型 GLM-4.5,专为智能体应用打造,同时融合了推理、代码和智能体能力。
特性:
- GLM-4.5 在包含推理、代码、智能体的综合能力达到开源 SOTA,在真实代码智能体的人工对比评测中,实测国内**;
- 采用混合专家(MoE)架构,包括 GLM-4.5:总参数量 3550 亿,激活参数 320 亿;GLM-4.5-Air:总参数 1060 亿,激活参数 120 亿;
- 两种模式:用于复杂推理和工具使用的思考模式,及用于即时响应的非思考模式;
- 高速、低成本:API 调用价格低至输入 0.8 元/百万tokens、输出 2 元/百万tokens;高速版最高可达 100 tokens/秒。
效果评测
12项基准测试中,综合平均分,GLM-4.5 取得了全球模型第三、国产模型第一,开源模型第一。
Agentic榜单世界第二,Coding榜单世界第三,推理榜单第七
GLM-4.5 参数量为 DeepSeek-R1 的 1/2、Kimi-K2 的 1/3,但在多项标准基准测试中表现得更为出色,这得益于 GLM 模型的更高参数效率。
另外,成本和效率继续提升,于是此次推出远低于主流模型定价:API 调用价格低至输入 0.8 元/百万 tokens,输出 2 元/百万 tokens。
训练方法
- 首先在 15 万亿 token 通用数据上预训练
- 此后代码、推理、智能体等领域的 8 万亿 token 数据上进行针对性训练
- 最后通过强化学习进一步增强模型推理、代码与智能体能力。
更多技术细节见技术博客 :
Hugging Face 与 ModelScope 平台同步开源,模型权重遵循 MIT License。
API 已上线开放平台 http://BigModel.cn,可以一键兼容 Claude Code 框架。
同时,智谱清言 (http://chatglm.cn) 和 z.ai 免费体验满血版。
同步发布的,还有 GLM-4.5-Air版
官方展示案例:全栈开发任务,编写复杂应用、游戏、交互网页
- 模拟人类使用google搜索引擎,操纵鼠标点击链接
- B站发弹幕:点B站视频链接,进入播放页面,点击弹幕区,发弹幕
- 发微博:编辑微博,发送,给别人点赞
- 写网页代码,flappybird游戏
- 制作ppt,输出hinton最新发言,ppt版
实测:开启全网搜索模式“hinton最新发言,整理成ppt”
模型识别出人名hinton,并检索到全名Geoffrey Hinton,检索最新资讯。
逐步阅读网页内容,展示关键决策动作:extinction、risk、wipe out、翻页等。
大约15min后,输出ppt大纲。
再次输入“转成ppt”:并未转ppt
可见,基座模型不断侵蚀Agent地盘,从工具调用扩展到多模态理解,GUI Agent等,越来越像人,AGI更进一步。
附录
- 官方文章:GLM-4.5发布:面向推理、代码与智能体的开源SOTA模型
- github仓库:https://github.com/zai-org/GLM-4.5
- 技术博客:https://z.ai/blog/glm-4.5
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/216233.html