2026年Qwen3.6-35B-A3B开源了,本地部署教程

Qwen3.6-35B-A3B开源了,本地部署教程p id 4FLC4B9V 刚刚 Qwen3 6 开源了 Qwen3 6 35B A3B p p id 4FLC4BA0 比较失望 不是我 还有众多网友期待的 Qwen3 6 27B p p class f center p

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



 

刚刚,Qwen3.6-开源了 Qwen3.6-35B-A3B

比较失望,不是我,还有众多网友期待的 Qwen3.6-27B


简介



Qwen3.6-35B-A3B 是一个 MoE 架构的小身材大能量选手:35B 参数总量,但实际推理只激活 3B

这意味着什么?运行它的算力消耗,大概只相当于一个 3B 稠密模型,但效果能打 27B、30B 的稠密大模型


Qwen3.6-35B-A3B 综合评测得分



这次开源的核心亮点:

Agentic Coding 能力大幅提升 :前端工作流和仓库级代码推理,明显上了一个台阶

  • Thinking Preservation(思维保留) :全新特性,可以在多轮对话中保留历史推理链,迭代开发场景下减少重复思考开销

  • 原生多模态 :视觉 + 语言双修,不是缝合怪,内置了视觉编码器

  • 超长上下文 :原生支持 262,144 tokens,开启 YaRN 后可扩展到 100 万 tokens

    架构揭秘:35B 总量 / 3B 激活,怎么做到的?

    Qwen3.6 用的是一种混合架构——把 Gated DeltaNet(线性注意力)Gated Attention(标准注意力) 交替堆叠,不是纯 Transformer,也不是纯线性注意力,而是两者的融合体

    再配上 MoE(混合专家)层:

    256 个专家 ,每次推理只激活 8 个路由专家 + 1 个共享专家

  • 40 层堆叠,隐层维度 2048

    这套架构的好处是:推理时大量专家处于"休眠"状态,算力需求极低;但模型的总参数量带来了丰富的知识密度。说白了,钱都花在学习上,推理时省着用

    性能实测:Agent 编程这项,真的飞了

    先上核心评测数据,对比选手是同规模的 Qwen3.5-35B-A3B(前代)、Gemma4-31B、Qwen3.5-27B(稠密 27B):

    评测基准

    Qwen3.5-27B

    Gemma4-31B

    Qwen3.5-35BA3B

    Qwen3.6-35BA3B

    SWE-bench Verified

    75.0

    52.0

    70.0

    73.4

    Terminal-Bench 2.0

    41.6

    42.9

    40.5

    51.5

    QwenWebBench(前端)

    1068

    1197

    978

    1397

    Claw-Eval Avg

    64.3

    48.5

    65.4

    68.7

    Terminal-Bench 从 40.5 跳到 51.5,提升了 11 个百分点

    QwenWebBench(前端代码生成)直接从 978 干到 1397,基本上是把上一代甩出了一条街

    我个人最感兴趣的是 QwenWebBench 这个指标——它评测的是生成网页/小游戏/数据可视化等实际前端任务,这个分数说明 Qwen3.6 在"一句话生成 App"这类场景里有了质的飞跃

    多模态这边也不差:视觉问答在空间智能方面(RefCOCO: 92.0,ODInW13: 50.8)甚至超过了 Claude Sonnet 4.5,文档理解和 OCR 类任务也处于 SOTA 水平。

    部署

    本人还在龟速下载中,先看看几个推理引擎下部署指南

    地址:modelscope.cn/models/Qwen/Qwen3.6-35B-A3B


    推荐方案一:SGLang(高吞吐生产场景)


    uv pip install sglang[all]





    # 启动服务(8 卡,262K 上下文)
    python -m sglang.launch_server
    --model-path Qwen/Qwen3.6-35B-A3B
    --port 8000
    --tp-size 8
    --mem-fraction-static 0.8
    --context-length
    --reasoning-parser qwen3























    加速推理可以开 MTP(多 token 预测):

    python -m sglang.launch_server 
    --model-path Qwen/Qwen3.6-35B-A3B
    --port 8000 --tp-size 8
    --reasoning-parser qwen3
    --speculative-algo NEXTN
    --speculative-num-steps 3
    --speculative-eagle-topk 1
    --speculative-num-draft-tokens 4





















    推荐方案二:vLLM

    uv pip install vllm --torch-backend=auto





    vllm serve Qwen/Qwen3.6-35B-A3B
    --port 8000
    --tensor-parallel-size 8
    --max-model-len
    --reasoning-parser qwen3














    如果只做文本推理,不需要视觉能力,加上 --language-model-only 可以省下视觉编码器的显存给 KV Cache 用,吞吐量更高

    使用

    最重要的新特性:preserve_thinking,强烈推荐 Agent 场景开启。

    默认情况下,模型每轮只保留最新一条消息的推理过程。开启 preserve_thinking=True 之后,历史轮次的推理链都会被保留并复用,对多步任务特别有用——减少重复思考,KV Cache 利用率也更高。

    from openai import OpenAI

    client = OpenAI(
    api_key="DASHSCOPE_API_KEY",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
    )
















    completion = client.chat.completions.create(
    model="qwen3.6-flash",
    messages=[{"role": "user", "content": "帮我分析这个 Python 项目结构"}],
    extra_body={
    "enable_thinking": True,
    "preserve_thinking": True, # Agent 场景开启
    },
    stream=True,
    )


























    关掉思维链(非思考模式) 也很简单,日常对话场景速度更快:

    extra_body={
    "chat_template_kwargs": {"enable_thinking": False},
    }






    ❝ 注意:Qwen3.6 不再支持 /think/nothink 软切换指令,需要通过参数控制。
    Coding Agent 工具集成

    Qwen3.6-35B-A3B 可以直接对接三款主流 Coding Agent:

    方案一:Qwen Code(推荐,专为 Qwen 系列优化)

    npm install -g @qwen-code/qwen-code@latest
    qwen
    # 进入后运行 /auth 配置 API Key






    方案二:OpenClaw(开源,支持自部署)

    curl -fsSL https://molt.bot/install.sh | bash
    export DASHSCOPE_API_KEY=
    openclaw dashboard






    方案三:Claude Code + Qwen API(惊喜组合)

    Qwen 支持 Anthropic API 协议,意味着可以直接用 Claude Code 套壳调用 Qwen 模型:

    npm install -g @anthropic-ai/claude-code

    export ANTHROPIC_MODEL="qwen3.6-flash"
    export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-flash"
    export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
    export ANTHROPIC_AUTH_TOKEN=














    claude


    这个玩法挺有意思的:Claude Code 的 UI 体验 + Qwen 的模型能力,而且 API 费用走阿里云那边,比 Anthropic 便宜不少

    本地运行:Mac / PC 也能跑(Unsloth GGUF)

    Unsloth 已经跑通了 Qwen3.6-35B-A3B 的 GGUF 量化版本,用 llama.cpp 在本地跑完全可行

    他们用自家的 Dynamic 2.0 量化方案——对重要层做精度补偿,效果比普通 Q4 强不少

    官方说 22GB 内存的 Mac 就能跑


    内存需求参考(RAM + VRAM 合计):

    量化精度

    所需内存

    Q2 极限压缩

    ~17 GB

    Q4_K_XL(推荐)

    ~23 GB

    Q5

    ~30 GB

    Q6

    ~38 GB

    BF16 全精度

    ~70 GB

    ❝ ⚠️ 重要提示:目前 Qwen3.6 的 GGUF 版本不支持 Ollama,因为视觉编码器(mmproj)需要单独加载文件,Ollama 暂时处理不了这个。请用 llama.cpp 兼容后端(Unsloth Studio 或 llama-server)。

    方案一:Unsloth Studio(图形界面,新手友好)

    一行命令安装,自动搞定 llama.cpp 环境:

    # macOS / Linux / WSL
    curl -fsSL https://unsloth.ai/install.sh | sh








    # 启动 Web UI
    unsloth studio -H 0.0.0.0 -p 8888





    打开浏览器访问 http://localhost:8888,搜索 Qwen3.6 下载对应量化版本,参数会自动配好,还有思维链开关,对小白极其友好。

    方案二:llama-server 命令行

    适合需要自定义参数或接入 Agent 工具的场景:

    ./llama.cpp/llama-server 
    –model unsloth/Qwen3.6-35B-A3B-GGUF/Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf
    –mmproj unsloth/Qwen3.6-35B-A3B-GGUF/mmproj-F16.gguf
    –alias “unsloth/Qwen3.6-35B-A3B”
    –temp 0.6
    –top-p 0.95
    –top-k 20
    –min-p 0.00
    –ctx-size 16384
    –port 8001



























    注意两个文件都要下载:模型主体 .gguf + 视觉编码器 mmproj-F16.gguf,缺一不可。

    启动后用 OpenAI 兼容 API 调用:

    from openai import OpenAI

    client = OpenAI(
    base_url=”http://127.0.0.1:8001/v1”,
    api_key=“sk-no-key-required”,
    )
















    completion = client.chat.completions.create(
    model=“unsloth/Qwen3.6-35B-A3B”,
    messages=[{“role”: “user”, “content”: “帮我写个贪吃蛇游戏”}],
    )
    print(completion.choices[0].message.content)














    切换思维链模式也很简单,在启动参数里加一行:

    # 关闭思维链(更快,日常对话)
    –chat-template-kwargs ‘{“enable_thinking”:false}’








    # 开启思维链(更强,复杂推理)
    –chat-template-kwargs ‘{“enable_thinking”:true}’





    llama-server 拉起来之后,同样可以对接 Claude Code 或 Qwen Code,把本地量化模型当 Agent 后端用,完全离线,不花一分 API 费

    总结

    Qwen3.6-35B-A3B 是一个让人难以挑剔的开源 MoE 模型

    ✅ 3B 激活参数,推理成本极低,个人显卡也能跑

  • ✅ Agent 编程能力显著提升,QwenWebBench 大幅领先前代

  • ✅ 原生多模态,视觉理解能力对标 Claude Sonnet 4.5

  • ✅ preserve_thinking 新特性,多步 Agent 场景如虎添翼

  • ✅ 262K 原生上下文,YaRN 后可扩展到 100 万

  • ⚠️ 不再支持 /think /nothink 软切换,需要注意迁移成本

  • ⚠️ 完整精度部署仍需多卡,但 Unsloth GGUF 量化版 22GB Mac 可跑

  • ⚠️ GGUF 版本暂不支持 Ollama,需用 llama.cpp 或 Unsloth Studio

    有需要在自己服务器上部署 Coding Agent 的朋友,这个应该是目前性价比最高的开源选择了

    制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!

    小讯
    上一篇 2026-04-19 09:13
    下一篇 2026-04-19 09:11

    相关推荐

    版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
    如需转载请保留出处:https://51itzy.com/kjqy/267476.html