Qwen3.6-35B-A3B 在 NVIDIA 各类显卡上的推理表现

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

 Qwen3.6-35B-A3B 35B 的总参数，每次推理只激活 3B；262K 的超长上下文，偏偏能在 24GB 的消费级显卡上跑起来。官方和社区数据已经反复证明，这货不是"PPT 模型"，而是真能在本地跑起来的编码利器。

根据 Hugging Face 模型卡和官方文档，Qwen3.6-35B-A3B 的关键规格可以概括为：

类型：多模态 MoE（Mixture-of-Experts）语言模型
总参数：35B，激活参数：3B（"A3B"的含义）
MoE 结构：256 个专家，每个 token 激活 8 个路由专家 + 1 个共享专家
默认上下文长度：262,144 tokens（262K），可扩展至 1M+
精度：BF16 / FP8 / Q4 等多种

更直白地说：它的推理成本更接近一个 3B 级别的密集模型，但质量却顶着 35B 的名头往上走。 这是后面所有"在消费级显卡上还能跑得飞快"的基础。

在编码和智能体相关基准上，Qwen3.6-35B-A3B 的表现也相当亮眼：官方模型卡中，SWE-bench Verified 得分 73.4%，明显强于同体积的密集模型和前代 MoE 模型——这也是它被很多人当成"本地 Claude 平替"的原因。

如果你只想记住一条结论，那就是：Qwen3.6-35B-A3B + RTX 4090 + llama.cpp，是目前本地体验最平衡的组合之一。

实测数据：IQ4_XS 量化下的表现

用 Qwen3.6-35B-A3B-UD-IQ4_XS.gguf 在 RTX 4090 上做了比较细的测试，配置如下：

GPU：RTX 4090
后端：CUDA，KV cache 用 f16，开启 Flash Attention
n_gpu_layers=999，threads=8，batch=256，ubatch=256

结果非常直观：

Prompt-only，512 tokens：约 4995 tok/s
Generation-only，128 tokens：约 180 tok/s
混合场景（4096 prompt + 128 generation）：约 2700 tok/s 有效吞吐

这组数据说明几件事：

预填充阶段极快：4090 的带宽让 4K tokens 的提示词基本"秒填"；
生成阶段约 180 tok/s，远超人类阅读速度，日常编码完全够用；
混合场景下有效吞吐接近 2700 tok/s，多轮对话场景下 4090 仍然有富余。

24GB VRAM 到底够不够？

根据详细测试给出了关键数字：

使用 llama.cpp + KV cache 量化（q8_0），Qwen3.6-35B-A3B 在 65K 上下文时 VRAM 占用约 24.2GB
同样 65K 上下文，Qwen3.5-35B-A3B 只要 21.7GB（KV cache 量化更激进）

换句话说：

RTX 4090 (24GB) 能跑 Qwen3.6-35B-A3B ，但 65K 上下文已经把显存压到极限
想要更舒服地跑 262K 上下文，要么上更大显存，要么用 Q4 / 更激进的量化

RTX 3090 同样是 24GB VRAM，但带宽和算力都弱于 4090，现实体验要打点折扣。

目前能查到的直接数据更多是 Qwen3.5-35B-A3B 在 3090 上的表现，但趋势非常清晰：

有用户在 RTX 3090 上用 Ollama 跑 Qwen3.5-35B-A3B，大约 55–60 tok/s
同样 24GB 显存，换成精心调参的 llama.cpp，Qwen3.5-35B-A3B 可以在 65K 上下文下达到 130+ tok/s，且 VRAM 占用更低

对 Qwen3.6-35B-A3B，可以保守推断：

RTX 3090 上单流生成速度大致在 80–120 tok/s 区间（视量化与上下文而定）
想要 65K 上下文，必须使用 KV cache 量化，否则 24GB 很容易 OOM
262K 上下文基本不现实，要么缩减上下文，要么上更大显存

如果你是 3090 用户，务必要接受一个现实：这张卡跑 Qwen3.6-35B-A3B 是"能用"，但不是"爽用"。

DGX Spark 搭载 NVIDIA GB10 Blackwell GPU，128GB 统一内存，显存方面完全不用担心。问题在于：它的强项是并发，而不是单用户极致速度。

Qwen3.5-35B-A3B BF16 在 DGX Spark 上的基准给出了典型数据：

单流速度：约 31–32 tok/s，TTFT ≈ 0.1s

多用户并发测试（模拟 RAG 场景，200 token 回复）：

并发用户 单用户体验 聚合吞吐

3.3 tok/s

13.0 tok/s

64.9 tok/s

8.2 tok/s

82.0 tok/s

9.4 tok/s

186.4 tok/s

6.2 tok/s

307.7 tok/s

100

4.3 tok/s

423.5 tok/s

Qwen3.5-35B-A3B BF16 在 DGX Spark 上的基准测试

可以总结为：

DGX Spark 更像一台"小型服务器"：适合给团队当共享编码助手，而不是个人本地开发机
单用户体验远不如 4090/3090 跟手
真要发挥它的价值，得配合 vLLM / SGLang 这类高并发框架，把并发拉满

对 Qwen3.6-35B-A3B 来说，DGX Spark 的优势是：你几乎不用操心 OOM，可以把上下文拉满到 262K 甚至更长，但得接受"别人在用 4090 秒回，你在 Spark 上慢半拍"的现实。

显卡 / 平台 显存 / 内存 典型单流速度 上下文建议 典型场景

RTX 5090

32GB GDDR7

~190 tok/s

65K 稳妥，262K 量化可行

预算充足的本地编码主力

RTX 4090

24GB GDDR6X

~180 tok/s

65K 偏紧，262K 需量化

性价比最均衡的个人开发机

RTX 3090

24GB GDDR6X

~100 tok/s

32K–65K，必须 KV 量化

预算有限、接受稍慢体验

DGX Spark

128GB 统一内存

~31 tok/s 单流

262K 随便用

团队共享服务、多用户 RAG

更大显存 (48GB+)

≥48GB

视卡而定

262K 全开

服务端部署、重负载场景

速度为社区实测或合理推断，会因量化、框架、批次大小等有波动，仅作选型参考。

RTX 4090：把 24GB 用到极致

如果你是 4090 用户，目标很明确：尽量接近 262K 上下文，同时保持不错的速度。

使用 llama.cpp 或 vLLM，开启 Flash Attention 和 KV cache 量化（至少 q8_0）
日常使用把上下文控制在 65K–128K，避免显存吃满
多轮对话时适当缩短历史上下文，或者启用上下文裁剪
如果主要做编码而非长文档 RAG，可以牺牲一点上下文把吞吐拉高

RTX 3090：稳比快更重要

3090 用户的核心原则：别开 262K 上下文。

建议上下文控制在 32K–65K，严格使用 KV cache 量化
尽量避免在 3090 上跑多用户并发服务，把卡留给单用户交互
如果经常 OOM，优先考虑：减小上下文、用更激进的量化（Q4_K_M 等）、或者换更大显存的卡

DGX Spark：把它当服务器，而不是个人机

在 Spark 上跑 Qwen3.6-35B-A3B，心态要转变：

不要追求单用户体验极致，而是看 聚合吞吐
用 vLLM / SGLang 把并发拉起来，让多用户共享
262K 上下文随便用，但要注意 TTFT 和单用户延迟
适合做公司内部编码助手 / RAG 服务，而不是个人"本地 Claude"

如果只记一个结论：

 个人本地编码 → RTX 4090 最均衡，速度与显存兼顾
 团队共享服务 → DGX Spark 并发强，显存不是问题
 预算有限 → RTX 3090 能跑，但要精打细算

Qwen3.6-35B-A3B 已经把“35B 级别质量 + 3B 级成本”这件事做到了可以日常使用的程度，而 NVIDIA 不同档位的显卡，决定了你是“将就着用”，还是“真香”。