Z.ai + MaaS + 开源三箭齐发：全面解读智谱 GLM-4-0414 系列模型（内含开发实践和 MCP 案例）

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

终于等到 GLM 的新模型了！上个月体验 AutoGLM 沉思智能体的时候，智谱就预告过会在 4 月中旬开源新的基座模型，今天智谱一口气开源了 6 个模型，在 BigModel 开放平台上更新了 5 款模型，还发布了一个全新的平台 Z.ai，方便用户直接体验最新的模型和深度研究能力。

在线平台 + MaaS + 开源模型，智谱这波真的太全面了，不论是开发者还是普通用户，都能方便地使用大模型能力或者开发自己的大模型工具。今天就给大家带来 GLM-0414 系列模型的介绍。

先来快速开个箱，看看智谱今天都给大家带来了哪些惊喜。简单来说，智谱这次可以说是「量大管饱」，一口气带来了一整套覆盖基座、推理、沉思三大类型的模型家族。智谱这次全面开源了 32B/9B 系列 GLM 模型，包括基座、推理、沉思模型，MIT 协议，可商用。

9B 模型可以在大多数 PC 上运行，32B 模型可以低成本支撑起多数业务。大家如果有本地部署的需求，可以测试一下 GLM-4-0414 模型的表现。

同时这些模型也上线了 Z.ai 平台、BigModel MaaS 平台，方便用户使用。

基础模型 GLM-4-32B-0414：坚实底座，能力全面

基础模型是所有上层能力的地基。GLM-4-32B-0414 使用 15T 高质量数据预训练，并在后训练阶段重点强化了指令遵循、工程代码生成、函数调用等智能体能力。其性能在部分 Benchmark 指标上已接近甚至超越 GPT-4o、DeepSeek-V3-0324。

推理模型 GLM-Z1-Air：更快，更强，更省

在 bigmodel.cn 平台上已经可以体验这些模型了：

沉思模型GLM-Z1-Rumination：深思熟虑，解决复杂问题

还记得上个月惊艳的 AutoGLM 吗？它背后的核心就是沉思模型。这次开源并发布的 GLM-Z1-Rumination-32B-0414 代表了智谱对 AGI 未来形态的探索。与普通推理模型追求快速响应不同，沉思模型通过更长时间、更多步骤的深度思考来解决开放性和复杂性极高的问题。

接下来我们就到平台上实际看一下模型的能力。

为了方便用户体验最新的模型能力，智谱启用了新域名 z.ai，集成基座、推理、沉思模型，免费向全球用户开放体验。

这里面的 GLM-4-32B 就是基座模型，Z1-32B 是推理模型，Z1-Rumination 支持深度研究。Z.ai 平台自带 Artifacts 功能，可以在线预览模型写出的 HTML 代码。

比如我们让 GLM-4-32B 写一个发布会的页面，它一口气写出了 1364 行代码，并能够给出预览效果：

这里面我最喜欢用 Z1-Rumination 的深度研究功能，我有个保留的测试 case，其他模型 + 搜索一般都做不对，大家可以自己测试一下：

阿布特别喜欢到处游历，脑子里总是梦想着自己在长大成人后能够环游世界的探险之旅。阿布之所以有这种想法，是因为受法国一位科幻作家写的某个历险故事的启发，在那本书中男主人公是搭载____船舶（船名）从新加坡到香港的。

比如 ChatGPT，即便打开了网络搜索功能，GPT-4o 也找不到这道题目的正确答案：

而 Z1-Rumination 经过了 4 轮迭代的搜索之后，能够给出正确答案：

由此可以看出，沉思版的思考和多轮迭代能力确实很强，能够有效解决普通模型单轮次搜索后回答不正确的问题，具备了一定的 Agent 能力。

对于开发者来说，只需要注册 bigmodel.cn 并获取 API key，就能调用这次更新的模型服务。新老用户还有 Tokens 赠送福利。

我调用平台 API 跑了一下接口速度，结果如下：

开始测试模型 API 输出速度

开始测试模型：glm-4-air-

首 token 响应时间： 1.72 秒内容生成：602 字符，352 tokens, 总用时：12.92 秒, 生成速度：27.25 tokens/s 如计入首 token 用时, 总用时：14.64 秒, 生成速度：24.04 tokens/s

开始测试模型：glm-4-flash-

首 token 响应时间： 0.25 秒内容生成：847 字符，537 tokens, 总用时：4.30 秒, 生成速度：124.83 tokens/s 如计入首 token 用时, 总用时：4.55 秒, 生成速度：118.08 tokens/s

开始测试模型：glm-z1-air

首 token 响应时间： 0.27 秒内容生成：1575 字符，1022 tokens, 总用时：26.79 秒, 生成速度：38.15 tokens/s 如计入首 token 用时, 总用时：27.06 秒, 生成速度：37.77 tokens/s

开始测试模型：glm-z1-airx

首 token 响应时间： 0.42 秒内容生成：1424 字符，912 tokens, 总用时：6.27 秒, 生成速度：145.47 tokens/s 如计入首 token 用时, 总用时：6.69 秒, 生成速度：136.32 tokens/s

开始测试模型：glm-z1-flash

首 token 响应时间： 0.37 秒内容生成：1244 字符，848 tokens, 总用时：7.63 秒, 生成速度：111.19 tokens/s 如计入首 token 用时, 总用时：8.00 秒, 生成速度：106.03 tokens/s

说实话这速度有点惊到我了，以前的模型，最快也就不到 50 tps，glm-z1-airx 能跑到接近 150 tps，更快的速度就是更快的思考，能够极大提升模型处理信息的效率。

这是一个朋友的需求，目的是「输入一篇完整的文章进行排版」。这也算是在办公中很常见的需求。秉持着「超过 3 次的重复工作就值得用代码自动化」的原则，我准备用 AI 来帮他完成这件事。

我们的基本思路是用大模型把原文分类为不同的样式属性，然后渲染输出为排版后的 docx 文件。

把具体业务拆解以后，主要包括以下部分：

代码部分其实不难，很多都可以用 AI 帮忙做。核心的两部分，一个是调用大模型进行分类：

# 调用智谱AI进行文本分类 response = client.chat.completions.create(

model="glm-z1-airx", messages=[ {"role": "system", "content": '''请把以下文本归类为以下type，并以合适的JSON格式返回,type包括：file_category、main_title、subtitle、heading1、heading2、heading34、body。JSON 格式为：{content": [{"type": "file_category", "text": "" }, { "type": "", "text": "" }]，直接返回JSON文本，不要加code block的markdown'''}, {"role": "user", "content": text}, ]

)

另一部分则是针对不同样式使用 python-docx 渲染格式，这块的工作其实比较「脏」，需要根据页面设置的要求写很多具体的配置文件，比如：

# 页面基础设置 PAGE_SETTINGS = {

'page_height': Mm(297), # A4纸高度 'page_width': Mm(210), # A4纸宽度 'margins': { 'top': Mm(38), 'bottom': Mm(33), 'left': Mm(28), 'right': Mm(28) }, 'header_distance': Mm(15), 'footer_distance': Mm(26)

} STYLE_DEFINITIONS = {

'MainTitle': { 'name': 'MainTitle', 'font_name_en': 'Times New Roman', 'font_name_cn': 'FZXiaoBiaoSong', 'font_size': Pt(22), 'bold': True, 'alignment': WD_ALIGN_PARAGRAPH.CENTER, 'line_spacing': Pt(28), 'space_after': Pt(0) }

}

前端页面效果如下：

这里由于需要调用大模型去处理文档，所以运行时间一般会比较长。如果输入文件有几千字的话，速度慢的模型往往需要跑一分多钟。

我测试了 glm-z1-airx 的处理速度，一般的文档都能在 20s 内搞定。生成排版后的文件样式如下：

现在写代码的难度已经降低了很多，大模型又是一个全能的中枢大脑实生活中有很多类似这样的具体需求，都可以用大模型来解决。

除了上面的模型服务外，智谱这次还开放了搜索服务：

其中，search_std 基础版搜索引擎限时免费至2025年5月31日。正好最近在研究 MCP 服务，所以我写了个 MCP，来调用搜索能力：

from mcp.server.fastmcp import FastMCP from zhipuai import ZhipuAI from typing import List, Optional

Initialize FastMCP server

mcp = FastMCP("web_search")

Initialize ZhipuAI client

client = ZhipuAI(api_key="") # 需要填写APIKey

@mcp.tool() def web_search(search_query: str) -> dict:

""" Perform a web search using ZhipuAI's web search API Args: search_query: The search query string search_engine: The search engine to use (default: "search-pro") Returns: dict: Search results containing created time, request_id, search intent and results """ try: response = client.web_search.web_search( search_engine="search-std", search_query=search_query ) # Convert response to dictionary format result = { "created": response.created, "request_id": response.request_id, "search_intent": [{ "query": intent.query, "intent": intent.intent, "keywords": intent.keywords } for intent in response.search_intent], "search_results": [{ "title": result.title, "link": result.link, "content": result.content, "icon": result.icon, "media": result.media, "refer": result.refer } for result in response.search_result] } return result except Exception as e: return {"error": str(e)}

if name == "main":

# Initialize and run the server mcp.run(transport='stdio')

运行效果如下：

模型会根据用户对话的内容，生成搜索关键词，调用智谱搜索引擎返回结果后，进行格式化输出。

我感觉现在的基础模型里，智谱的 Agent 能力还是比较全面的。OpenAI 前两天发 GPT-4.1 的时候有个函数调用能力的评测，用的也是智谱提出的 ComplexFuncBench，对模型的多步推理有较高的要求。

从这次更新发布的 GLM 模型来看，智谱找到了自己的方向和道路，能够继续在模型研发和智能体上卷出一片天地，相信智谱这波「开源+平台+MaaS」组合拳会极大推动国产 AI 生态的发展。