2026年实战经验帖：本地跑 Qwen3.5 踩过的坑

科技前沿 • 2026-03-20 22:56 • 阅读 2

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

最近在折腾一套本地 AI 工作流（数字员工 / MCP / Agent 自动化），从一开始盲目追大模型，到最后收敛到合理方案，中间踩了不少坑，本篇记录分享，各位注意规避。

一开始我在找：Qwen3.5-32B，因为我记得 Qwen3 是有这个参数量大小的

结果官网根本没有。后来才搞明白：👉 官方 3.5 是这样分档的：

9B / 27B / 35B（A3B）/ 122B / 397B

所谓“32B”，本质是：

GPT plus 代充 只需 145Qwen3.5-35B-A3B ≈ 32B能力

原因是：

👉 结论：

不要找 32B，直接认 35B-A3B

我第一次下 35B：

当时直接怀疑人生。本质原因就一个：下载链路问题（不是模型问题）

解决方案，直接换：aria2c -x 16 -s 16

或者：

👉 速度能从 KB/s → MB/s

我一开始下的是： Qwen3.5-14B-A3B-Claude-Opus-Reasoning-Distilled

听起来很猛，实际上是：社区魔改模型

问题非常明显：

如果模型名包含：

GPT plus 代充 只需 145distilled / opus / gpt / merge / uncensored

👉 基本可以判断：= 二创模型（慎用）

正确选择：官方 GGUF

我一开始目标很明确：必须上 35B

但实际跑起来：

指标表现内存吃满速度很慢体验卡

本地模型不是越大越好，而是要匹配系统形态

后来我换成：Qwen3.5-9B Q4_K_M（6.5GB）

9B 可以：

9B 不擅长：

我现在的理解已经变成：

模型不是单点，而是系统架构的一部分

GPT plus 代充 只需 145主模型（常驻） Qwen3.5-9B 复杂任务 Qwen3.5-14B 高阶推理 Qwen3.5-35B-A3B（按需调用）

9B = 跑系统 14B = 做任务 35B = 解难题

如果你是：

👉 最优路径是：

GPT plus 代充 只需 145先用 9B 跑通系统 再引入 14B 做增强 最后按需接入 35B

以上就是本次分享。我是安东尼（github: TUARAN），持续关注大模型应用、AI工程化与自动化系统。欢迎一起交流 OpenClaw、Agent、数字员工 等实践，也欢迎共创 《前端周刊》 、加入 博主联盟。加我或进群，一起做点有意思的 AI 项目。