2026年Qwen3.6-35B-A3B开源了，本地部署教程

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

 刚刚，Qwen3.6-开源了 Qwen3.6-35B-A3B
比较失望，不是我，还有众多网友期待的 Qwen3.6-27B

 简介



Qwen3.6-35B-A3B 是一个 MoE 架构的小身材大能量选手：35B 参数总量，但实际推理只激活 3B
这意味着什么？运行它的算力消耗，大概只相当于一个 3B 稠密模型，但效果能打 27B、30B 的稠密大模型

 Qwen3.6-35B-A3B 综合评测得分



这次开源的核心亮点：
  
  
    
     
      
    
 Agentic Coding 能力大幅提升 ：前端工作流和仓库级代码推理，明显上了一个台阶
 Thinking Preservation（思维保留） ：全新特性，可以在多轮对话中保留历史推理链，迭代开发场景下减少重复思考开销
 原生多模态 ：视觉 + 语言双修，不是缝合怪，内置了视觉编码器
 超长上下文 ：原生支持 262,144 tokens，开启 YaRN 后可扩展到 100 万 tokens
架构揭秘：35B 总量 / 3B 激活，怎么做到的？
Qwen3.6 用的是一种混合架构——把 Gated DeltaNet（线性注意力） 和 Gated Attention（标准注意力） 交替堆叠，不是纯 Transformer，也不是纯线性注意力，而是两者的融合体
再配上 MoE（混合专家）层：
  
  
    
     
      
    
 256 个专家 ，每次推理只激活 8 个路由专家 + 1 个共享专家
 40 层堆叠，隐层维度 2048
这套架构的好处是：推理时大量专家处于"休眠"状态，算力需求极低；但模型的总参数量带来了丰富的知识密度。说白了，钱都花在学习上，推理时省着用
性能实测：Agent 编程这项，真的飞了
先上核心评测数据，对比选手是同规模的 Qwen3.5-35B-A3B（前代）、Gemma4-31B、Qwen3.5-27B（稠密 27B）：
 评测基准
 Qwen3.5-27B
 Gemma4-31B
 Qwen3.5-35BA3B
Qwen3.6-35BA3B
 SWE-bench Verified
 75.0
 52.0
 70.0
73.4
 Terminal-Bench 2.0
 41.6
 42.9
 40.5
51.5
 QwenWebBench（前端）
 1068
 1197
 978
1397
 Claw-Eval Avg
 64.3
 48.5
 65.4
68.7
Terminal-Bench 从 40.5 跳到 51.5，提升了 11 个百分点
QwenWebBench（前端代码生成）直接从 978 干到 1397，基本上是把上一代甩出了一条街
我个人最感兴趣的是 QwenWebBench 这个指标——它评测的是生成网页/小游戏/数据可视化等实际前端任务，这个分数说明 Qwen3.6 在"一句话生成 App"这类场景里有了质的飞跃
多模态这边也不差：视觉问答在空间智能方面（RefCOCO: 92.0，ODInW13: 50.8）甚至超过了 Claude Sonnet 4.5，文档理解和 OCR 类任务也处于 SOTA 水平。
部署
本人还在龟速下载中，先看看几个推理引擎下部署指南
地址：modelscope.cn/models/Qwen/Qwen3.6-35B-A3B

推荐方案一：SGLang（高吞吐生产场景）

uv pip install sglang[all]





 # 启动服务（8 卡，262K 上下文）
python -m sglang.launch_server 
 --model-path Qwen/Qwen3.6-35B-A3B 
 --port 8000 
 --tp-size 8 
 --mem-fraction-static 0.8 
 --context-length 
 --reasoning-parser qwen3























加速推理可以开 MTP（多 token 预测）：
python -m sglang.launch_server 
 --model-path Qwen/Qwen3.6-35B-A3B 
 --port 8000 --tp-size 8 
 --reasoning-parser qwen3 
 --speculative-algo NEXTN 
 --speculative-num-steps 3 
 --speculative-eagle-topk 1 
 --speculative-num-draft-tokens 4





















推荐方案二：vLLM
uv pip install vllm --torch-backend=auto





 vllm serve Qwen/Qwen3.6-35B-A3B 
 --port 8000 
 --tensor-parallel-size 8 
 --max-model-len 
 --reasoning-parser qwen3














如果只做文本推理，不需要视觉能力，加上 --language-model-only 可以省下视觉编码器的显存给 KV Cache 用，吞吐量更高
使用
最重要的新特性：preserve_thinking，强烈推荐 Agent 场景开启。
默认情况下，模型每轮只保留最新一条消息的推理过程。开启 preserve_thinking=True 之后，历史轮次的推理链都会被保留并复用，对多步任务特别有用——减少重复思考，KV Cache 利用率也更高。
from openai import OpenAI

 client = OpenAI(
 api_key="DASHSCOPE_API_KEY",
 base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
















 completion = client.chat.completions.create(
 model="qwen3.6-flash",
 messages=[{"role": "user", "content": "帮我分析这个 Python 项目结构"}],
 extra_body={
 "enable_thinking": True,
 "preserve_thinking": True, # Agent 场景开启
 },
 stream=True,
)


























关掉思维链（非思考模式） 也很简单，日常对话场景速度更快：
extra_body={
 "chat_template_kwargs": {"enable_thinking": False},
}






 
  
    
    
      ❝ 注意：Qwen3.6 不再支持 /think/nothink 软切换指令，需要通过参数控制。 
    
Coding Agent 工具集成Qwen3.6-35B-A3B 可以直接对接三款主流 Coding Agent：
方案一：Qwen Code（推荐，专为 Qwen 系列优化）
npm install -g @qwen-code/qwen-code@latest
qwen
# 进入后运行 /auth 配置 API Key






方案二：OpenClaw（开源，支持自部署）
curl -fsSL https://molt.bot/install.sh | bash
export DASHSCOPE_API_KEY= 
openclaw dashboard






方案三：Claude Code + Qwen API（惊喜组合）
Qwen 支持 Anthropic API 协议，意味着可以直接用 Claude Code 套壳调用 Qwen 模型：
npm install -g @anthropic-ai/claude-code

 export ANTHROPIC_MODEL="qwen3.6-flash"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-flash"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN= 













 
 claude

这个玩法挺有意思的：Claude Code 的 UI 体验 + Qwen 的模型能力，而且 API 费用走阿里云那边，比 Anthropic 便宜不少

本地运行：Mac / PC 也能跑（Unsloth GGUF）

Unsloth 已经跑通了 Qwen3.6-35B-A3B 的 GGUF 量化版本，用 llama.cpp 在本地跑完全可行

他们用自家的 Dynamic 2.0 量化方案——对重要层做精度补偿，效果比普通 Q4 强不少

官方说 22GB 内存的 Mac 就能跑

内存需求参考（RAM + VRAM 合计）：

量化精度

所需内存

Q2 极限压缩

~17 GB

Q4_K_XL（推荐）

~23 GB

~30 GB

~38 GB

BF16 全精度

~70 GB

❝ ⚠️ 重要提示：目前 Qwen3.6 的 GGUF 版本不支持 Ollama，因为视觉编码器（mmproj）需要单独加载文件，Ollama 暂时处理不了这个。请用 llama.cpp 兼容后端（Unsloth Studio 或 llama-server）。

方案一：Unsloth Studio（图形界面，新手友好）

一行命令安装，自动搞定 llama.cpp 环境：

# macOS / Linux / WSL
curl -fsSL https://unsloth.ai/install.sh | sh








 # 启动 Web UI
unsloth studio -H 0.0.0.0 -p 8888

打开浏览器访问 http://localhost:8888，搜索 Qwen3.6 下载对应量化版本，参数会自动配好，还有思维链开关，对小白极其友好。

方案二：llama-server 命令行

适合需要自定义参数或接入 Agent 工具的场景：

./llama.cpp/llama-server 
 –model unsloth/Qwen3.6-35B-A3B-GGUF/Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf 
 –mmproj unsloth/Qwen3.6-35B-A3B-GGUF/mmproj-F16.gguf 
 –alias “unsloth/Qwen3.6-35B-A3B” 
 –temp 0.6 
 –top-p 0.95 
 –top-k 20 
 –min-p 0.00 
 –ctx-size 16384 
 –port 8001

注意两个文件都要下载：模型主体 .gguf + 视觉编码器 mmproj-F16.gguf，缺一不可。

启动后用 OpenAI 兼容 API 调用：

from openai import OpenAI

 client = OpenAI(
 base_url=”http://127.0.0.1:8001/v1”,
 api_key=“sk-no-key-required”,
)
















 completion = client.chat.completions.create(
 model=“unsloth/Qwen3.6-35B-A3B”,
 messages=[{“role”: “user”, “content”: “帮我写个贪吃蛇游戏”}],
)
print(completion.choices[0].message.content)

切换思维链模式也很简单，在启动参数里加一行：

# 关闭思维链（更快，日常对话）
–chat-template-kwargs ‘{“enable_thinking”:false}’








 # 开启思维链（更强，复杂推理）
–chat-template-kwargs ‘{“enable_thinking”:true}’

llama-server 拉起来之后，同样可以对接 Claude Code 或 Qwen Code，把本地量化模型当 Agent 后端用，完全离线，不花一分 API 费

总结

Qwen3.6-35B-A3B 是一个让人难以挑剔的开源 MoE 模型：

✅ 3B 激活参数，推理成本极低，个人显卡也能跑

✅ Agent 编程能力显著提升，QwenWebBench 大幅领先前代

✅ 原生多模态，视觉理解能力对标 Claude Sonnet 4.5

✅ preserve_thinking 新特性，多步 Agent 场景如虎添翼

✅ 262K 原生上下文，YaRN 后可扩展到 100 万

⚠️ 不再支持 /think /nothink 软切换，需要注意迁移成本

⚠️ 完整精度部署仍需多卡，但 Unsloth GGUF 量化版 22GB Mac 可跑

⚠️ GGUF 版本暂不支持 Ollama，需用 llama.cpp 或 Unsloth Studio

有需要在自己服务器上部署 Coding Agent 的朋友，这个应该是目前性价比最高的开源选择了

制作不易，如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个，谢谢你看我的文章，我们下篇再见！

2026年Qwen3.6-35B-A3B开源了，本地部署教程

相关推荐