刚刚,Qwen3.6-开源了 Qwen3.6-35B-A3B
比较失望,不是我,还有众多网友期待的 Qwen3.6-27B
简介Qwen3.6-35B-A3B 是一个 MoE 架构的小身材大能量选手:35B 参数总量,但实际推理只激活 3B
这意味着什么?运行它的算力消耗,大概只相当于一个 3B 稠密模型,但效果能打 27B、30B 的稠密大模型
Qwen3.6-35B-A3B 综合评测得分这次开源的核心亮点:
Agentic Coding 能力大幅提升 :前端工作流和仓库级代码推理,明显上了一个台阶
Thinking Preservation(思维保留) :全新特性,可以在多轮对话中保留历史推理链,迭代开发场景下减少重复思考开销
原生多模态 :视觉 + 语言双修,不是缝合怪,内置了视觉编码器
超长上下文 :原生支持 262,144 tokens,开启 YaRN 后可扩展到 100 万 tokens
架构揭秘:35B 总量 / 3B 激活,怎么做到的?
Qwen3.6 用的是一种混合架构——把 Gated DeltaNet(线性注意力) 和 Gated Attention(标准注意力) 交替堆叠,不是纯 Transformer,也不是纯线性注意力,而是两者的融合体
再配上 MoE(混合专家)层:
256 个专家 ,每次推理只激活 8 个路由专家 + 1 个共享专家
40 层堆叠,隐层维度 2048
这套架构的好处是:推理时大量专家处于"休眠"状态,算力需求极低;但模型的总参数量带来了丰富的知识密度。说白了,钱都花在学习上,推理时省着用
性能实测:Agent 编程这项,真的飞了
先上核心评测数据,对比选手是同规模的 Qwen3.5-35B-A3B(前代)、Gemma4-31B、Qwen3.5-27B(稠密 27B):
评测基准
Qwen3.5-27B
Gemma4-31B
Qwen3.5-35BA3B
Qwen3.6-35BA3B
SWE-bench Verified
75.0
52.0
70.0
73.4
Terminal-Bench 2.0
41.6
42.9
40.5
51.5
QwenWebBench(前端)
1068
1197
978
1397
Claw-Eval Avg
64.3
48.5
65.4
68.7
Terminal-Bench 从 40.5 跳到 51.5,提升了 11 个百分点
QwenWebBench(前端代码生成)直接从 978 干到 1397,基本上是把上一代甩出了一条街
我个人最感兴趣的是 QwenWebBench 这个指标——它评测的是生成网页/小游戏/数据可视化等实际前端任务,这个分数说明 Qwen3.6 在"一句话生成 App"这类场景里有了质的飞跃
多模态这边也不差:视觉问答在空间智能方面(RefCOCO: 92.0,ODInW13: 50.8)甚至超过了 Claude Sonnet 4.5,文档理解和 OCR 类任务也处于 SOTA 水平。
部署
本人还在龟速下载中,先看看几个推理引擎下部署指南
地址:modelscope.cn/models/Qwen/Qwen3.6-35B-A3B
推荐方案一:SGLang(高吞吐生产场景)
uv pip install sglang[all]# 启动服务(8 卡,262K 上下文)
python -m sglang.launch_server
--model-path Qwen/Qwen3.6-35B-A3B
--port 8000
--tp-size 8
--mem-fraction-static 0.8
--context-length
--reasoning-parser qwen3加速推理可以开 MTP(多 token 预测):
python -m sglang.launch_server
--model-path Qwen/Qwen3.6-35B-A3B
--port 8000 --tp-size 8
--reasoning-parser qwen3
--speculative-algo NEXTN
--speculative-num-steps 3
--speculative-eagle-topk 1
--speculative-num-draft-tokens 4推荐方案二:vLLM
uv pip install vllm --torch-backend=autovllm serve Qwen/Qwen3.6-35B-A3B
--port 8000
--tensor-parallel-size 8
--max-model-len
--reasoning-parser qwen3如果只做文本推理,不需要视觉能力,加上
--language-model-only可以省下视觉编码器的显存给 KV Cache 用,吞吐量更高使用
最重要的新特性:preserve_thinking,强烈推荐 Agent 场景开启。
默认情况下,模型每轮只保留最新一条消息的推理过程。开启
preserve_thinking=True之后,历史轮次的推理链都会被保留并复用,对多步任务特别有用——减少重复思考,KV Cache 利用率也更高。from openai import OpenAI
client = OpenAI(
api_key="DASHSCOPE_API_KEY",
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)completion = client.chat.completions.create(
model="qwen3.6-flash",
messages=[{"role": "user", "content": "帮我分析这个 Python 项目结构"}],
extra_body={
"enable_thinking": True,
"preserve_thinking": True, # Agent 场景开启
},
stream=True,
)关掉思维链(非思考模式) 也很简单,日常对话场景速度更快:
extra_body={
"chat_template_kwargs": {"enable_thinking": False},
}❝ 注意:Qwen3.6 不再支持 /think/nothink 软切换指令,需要通过参数控制。Coding Agent 工具集成Qwen3.6-35B-A3B 可以直接对接三款主流 Coding Agent:
方案一:Qwen Code(推荐,专为 Qwen 系列优化)
npm install -g @qwen-code/qwen-code@latest
qwen
# 进入后运行 /auth 配置 API Key方案二:OpenClaw(开源,支持自部署)
curl -fsSL https://molt.bot/install.sh | bash
export DASHSCOPE_API_KEY=
openclaw dashboard方案三:Claude Code + Qwen API(惊喜组合)
Qwen 支持 Anthropic API 协议,意味着可以直接用 Claude Code 套壳调用 Qwen 模型:
npm install -g @anthropic-ai/claude-code
export ANTHROPIC_MODEL="qwen3.6-flash"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-flash"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=claude
这个玩法挺有意思的:Claude Code 的 UI 体验 + Qwen 的模型能力,而且 API 费用走阿里云那边,比 Anthropic 便宜不少
本地运行:Mac / PC 也能跑(Unsloth GGUF)
Unsloth 已经跑通了 Qwen3.6-35B-A3B 的 GGUF 量化版本,用 llama.cpp 在本地跑完全可行
他们用自家的 Dynamic 2.0 量化方案——对重要层做精度补偿,效果比普通 Q4 强不少
官方说 22GB 内存的 Mac 就能跑
![]()
内存需求参考(RAM + VRAM 合计):
量化精度
所需内存
Q2 极限压缩
~17 GB
Q4_K_XL(推荐)
~23 GB
Q5
~30 GB
Q6
~38 GB
BF16 全精度
~70 GB
❝ ⚠️ 重要提示:目前 Qwen3.6 的 GGUF 版本不支持 Ollama,因为视觉编码器(mmproj)需要单独加载文件,Ollama 暂时处理不了这个。请用 llama.cpp 兼容后端(Unsloth Studio 或 llama-server)。
方案一:Unsloth Studio(图形界面,新手友好)
一行命令安装,自动搞定 llama.cpp 环境:
# macOS / Linux / WSL
curl -fsSL https://unsloth.ai/install.sh | sh# 启动 Web UI
unsloth studio -H 0.0.0.0 -p 8888
打开浏览器访问 http://localhost:8888,搜索 Qwen3.6 下载对应量化版本,参数会自动配好,还有思维链开关,对小白极其友好。
方案二:llama-server 命令行
适合需要自定义参数或接入 Agent 工具的场景:
./llama.cpp/llama-server
–model unsloth/Qwen3.6-35B-A3B-GGUF/Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf
–mmproj unsloth/Qwen3.6-35B-A3B-GGUF/mmproj-F16.gguf
–alias “unsloth/Qwen3.6-35B-A3B”
–temp 0.6
–top-p 0.95
–top-k 20
–min-p 0.00
–ctx-size 16384
–port 8001
注意两个文件都要下载:模型主体 .gguf + 视觉编码器 mmproj-F16.gguf,缺一不可。
启动后用 OpenAI 兼容 API 调用:
from openai import OpenAI
client = OpenAI(
base_url=”http://127.0.0.1:8001/v1”,
api_key=“sk-no-key-required”,
)completion = client.chat.completions.create(
model=“unsloth/Qwen3.6-35B-A3B”,
messages=[{“role”: “user”, “content”: “帮我写个贪吃蛇游戏”}],
)
print(completion.choices[0].message.content)
切换思维链模式也很简单,在启动参数里加一行:
# 关闭思维链(更快,日常对话)
–chat-template-kwargs ‘{“enable_thinking”:false}’# 开启思维链(更强,复杂推理)
–chat-template-kwargs ‘{“enable_thinking”:true}’
llama-server 拉起来之后,同样可以对接 Claude Code 或 Qwen Code,把本地量化模型当 Agent 后端用,完全离线,不花一分 API 费
总结
Qwen3.6-35B-A3B 是一个让人难以挑剔的开源 MoE 模型:
✅ 3B 激活参数,推理成本极低,个人显卡也能跑
✅ Agent 编程能力显著提升,QwenWebBench 大幅领先前代
✅ 原生多模态,视觉理解能力对标 Claude Sonnet 4.5
✅ preserve_thinking 新特性,多步 Agent 场景如虎添翼
✅ 262K 原生上下文,YaRN 后可扩展到 100 万
⚠️ 不再支持 /think /nothink 软切换,需要注意迁移成本
⚠️ 完整精度部署仍需多卡,但 Unsloth GGUF 量化版 22GB Mac 可跑
⚠️ GGUF 版本暂不支持 Ollama,需用 llama.cpp 或 Unsloth Studio
有需要在自己服务器上部署 Coding Agent 的朋友,这个应该是目前性价比最高的开源选择了
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/267476.html