最近在折腾一套本地 AI 工作流(数字员工 / MCP / Agent 自动化),从一开始盲目追大模型,到最后收敛到合理方案,中间踩了不少坑,本篇记录分享,各位注意规避。
一开始我在找:Qwen3.5-32B,因为我记得 Qwen3 是有这个参数量大小的
结果官网根本没有。后来才搞明白:👉 官方 3.5 是这样分档的:

9B / 27B / 35B(A3B)/ 122B / 397B
所谓“32B”,本质是:
GPT plus 代充 只需 145Qwen3.5-35B-A3B ≈ 32B能力
原因是:
- MoE 架构(稀疏激活)
- 实际参与计算 ≈ 30B+
👉 结论:
不要找 32B,直接认 35B-A3B
我第一次下 35B:
- 22GB
- 速度 48KB/s
- 预计 128 小时
当时直接怀疑人生。本质原因就一个:下载链路问题(不是模型问题)
解决方案,直接换:aria2c -x 16 -s 16
或者:
- hf-mirror
- LM Studio 内置下载
👉 速度能从 KB/s → MB/s
我一开始下的是: Qwen3.5-14B-A3B-Claude-Opus-Reasoning-Distilled
听起来很猛,实际上是:社区魔改模型
问题非常明显:
- 输出不稳定
- JSON结构容易乱
- 风格像 Claude
- 指令跟随不靠谱
如果模型名包含:
GPT plus 代充 只需 145distilled / opus / gpt / merge / uncensored
👉 基本可以判断:= 二创模型(慎用)
正确选择:官方 GGUF
我一开始目标很明确:必须上 35B
但实际跑起来:
本地模型不是越大越好,而是要匹配系统形态
后来我换成:Qwen3.5-9B Q4_K_M(6.5GB)
9B 可以:
- Agent执行
- JSON输出
- 代码生成(中等)
- 流程编排
9B 不擅长:
- 长链复杂推理
- 多表复杂分析
- 高精度工程代码
我现在的理解已经变成:
模型不是单点,而是系统架构的一部分
GPT plus 代充 只需 145主模型(常驻) Qwen3.5-9B 复杂任务 Qwen3.5-14B 高阶推理 Qwen3.5-35B-A3B(按需调用)
9B = 跑系统 14B = 做任务 35B = 解难题
如果你是:
- 在做 Agent / MCP / 自动化系统
- 本地部署(Mac / 32GB)
- 需要长期运行
👉 最优路径是:
GPT plus 代充 只需 145先用 9B 跑通系统 再引入 14B 做增强 最后按需接入 35B
以上就是本次分享。我是安东尼(github: TUARAN),持续关注大模型应用、AI工程化与自动化系统。欢迎一起交流 OpenClaw、Agent、数字员工 等实践,也欢迎共创 《前端周刊》 、加入 博主联盟。加我或进群,一起做点有意思的 AI 项目。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/240829.html