4 月 16 日,Qwen3.6-35B-A3B 正式发布。这次虽然版本号只是从 3.5 到 3.6,但针对开发者的优化是实打实的——代码智能体能力直接拉满,思维保持功能彻底解决上下文丢失问题。
先看这组数字:
- 35B 参数,只激活 3B:推理速度快 10 倍,成本降 90%
- 256K 超长上下文:一次能看完整个中型项目的代码
- 201 种语言支持:从中文到小语种全覆盖
- 思维保持(Thinking Preservation):跨对话记住你的需求和架构选择
- 仓库级代码理解:不再局限单文件,能看懂整个项目依赖关系
什么概念?以前你让 AI 改个前端组件,它只看当前文件,改完发现和其他组件冲突。现在 Qwen3.6 能看懂整个项目结构,而且记住你之前说的架构要求——迭代开发不用反复解释,效率直接翻倍。
最让人眼前一亮的是这个功能。
传统 AI 对话的痛点:
AI:写完了 你:「帮我写个用户登录功能,用 JWT + Redis」
AI:写完了, 记住了架构选择 第二轮 你:「再加个记住密码」
AI:好的(但可能忘了你要用 Redis) 你:「再加个记住密码」
AI:好的, 自动用 Redis 存储,保持架构一致 第三轮 你:「加个登录日志」
AI:用什么存?(又要重新解释) 你:「加个登录日志」
AI: 直接用 Redis,不用问
简单说,就是 AI 会记住你之前的需求、架构选择、代码风格。迭代开发时不用反复解释上下文,沟通成本直接降 80%。
用通义千问团队的话说:「streamlining iterative development and reducing overhead」——让你少废话,多干活。
核心能力对比:
实际场景对比:
你让 AI 改个 React 组件:
❌ 传统 AI:
- 只看当前文件
- 改完发现和其他组件冲突
- 不知道项目用的状态管理方案
- 需要你手动检查所有依赖
✅ Qwen3.6:
- 看懂整个项目的组件树
- 知道哪些组件依赖这个组件
- 自动用项目的状态管理方案(Redux/Zustand)
- 改完保证不破坏其他功能
这才叫真正的「代码智能体」。
Qwen3.6 基于 Qwen3.5 架构,这个架构的核心是:用更少的资源,干更多的活。
Gated Delta Networks + 稀疏混合专家(MoE)
简单说,就是把 35B 参数分成多个「专家」,每次推理只激活需要的 3B 参数。
类比:
- 传统模型:每次都要把整个团队叫来开会(35B 全激活)
- Qwen3.6:只叫相关的 3 个人来讨论(3B 激活),效率直接拉满
这就是为什么 Qwen3.6 在代码智能体任务上这么强——它是在真实的、复杂的开发场景中训练出来的,不是靠刷题刷出来的。
不是简单的机器翻译,而是真正理解不同语言的文化和表达习惯。
中文、英文自不必说,连粤语、闽南语这种方言都能处理,这对全球化产品来说太重要了。
虽然官方 README 没给详细数据,但从架构和定位来看,重点在:
- 代码生成:前端、后端、全栈都能搞
- 仓库级理解:大型项目重构、代码审查
- 智能体任务:多步骤推理、工具调用
Qwen3.5 家族包括:
- Qwen3.5-397B-A17B:旗舰模型,全能王
- Qwen3.5-122B-A10B:高性能版本
- Qwen3.5-35B-A3B:Qwen3.6 的基础
- Qwen3.5-27B:标准版本
- Qwen3.5-9B / 4B / 2B / 0.8B:轻量级版本
从 0.8B 到 397B,覆盖了从边缘设备到数据中心的所有场景。
直接访问:chat.qwen.ai
- Web + 桌面 + 移动端全覆盖
- 原生支持深度研究、Web 开发、工具调用
- 免费试用,体验思维保持功能
兼容 OpenAI SDK,一行代码切换:
为什么选阿里云 API:
- 企业级稳定性(99.9% SLA)
- 兼容 OpenAI 和 Anthropic 规范
- 按需付费,成本可控
transformers serve
SGLang 生产环境、高并发 性能最强,推理快
sglang.launch_server
vLLM 批量处理、离线任务 吞吐量大
vllm serve
SGLang(推荐生产环境)
关键参数解读:
--tp-size 4:4 卡并行,35B 模型建议 2-4 张 A100/H100--context-length:256K 超长上下文,能看完整个中型项目--reasoning-parser qwen3:启用 Qwen3 推理解析器,提升代码生成质量
硬件需求:
vLLM(高吞吐场景)
两个框架都提供 OpenAI 兼容 API:http://localhost:8000/v1
没有 GPU?试试这些方案
llama.cpp(CPU 推理):
MLX(Apple Silicon 专属):
在 M3 Max 上跑 35B 模型,速度还行,适合个人开发。
专为终端优化的 AI 代码助手
核心功能:
详细文档:qwenlm.github.io/qwen-code-docs
构建 LLM 应用的开源框架
核心能力:
详细文档:qwenlm.github.io/Qwen-Agent
支持的框架:
- UnSloth:快速微调,内存优化
- Swift:ModelScope 官方框架
- LLaMA-Factory:功能全面,易用性强
支持的方法:
- SFT(Supervised Fine-Tuning):监督微调
- DPO(Direct Preference Optimization):偏好优化
- GRPO(Group Relative Policy Optimization):群体相对策略优化
从 0.8B 到 397B,从纯文本到多模态,Qwen 家族已经形成了完整的产品矩阵。
Qwen3.6 这次更新,标志着 AI 辅助编程从「能用」进化到「真好用」。
思维保持功能,彻底解决了上下文丢失这个最大痛点。以前你和 AI 聊了半天需求,换个话题再回来,它就全忘了。现在它能记住你的思路、架构选择、代码风格——迭代开发效率直接翻倍。
仓库级代码理解,从单文件升级到整个项目。大型项目重构、前端组件开发,Qwen3.6 能给出真正靠谱的建议,不是那种「看起来对,实际一跑就报错」的代码。
35B 参数只激活 3B,推理速度快 10 倍,成本降 90%。这意味着个人开发者也能用得起,不是只有大厂才玩得转。
Apache 2.0 开源,商用无压力。不用担心授权问题,想怎么用就怎么用。
部署生态完善,从云端 API 到本地部署,从 GPU 到 CPU,从 x86 到 Apple Silicon,全都支持。甚至 M3 Max 都能跑,这在以前是不敢想的。
通义千问这次是真的听进去了开发者的反馈。没搞那些花里胡哨的 PPT 功能,就盯着实用性做优化。
不再是「AI 能写代码」就叫智能体,而是要做到:理解整个项目、记住你的需求、生成可靠的代码、持续迭代优化——这些能力单独拿出来都很强,组合起来就是降维打击。
AI 辅助编程的未来,可能比我们想象的来得更快。
相关链接:
- GitHub 仓库:https://github.com/QwenLM/Qwen3.6
- Hugging Face 模型:https://huggingface.co/Qwen/Qwen3.6-35B-A3B
- ModelScope 模型:https://modelscope.cn/organization/qwen
- Qwen Studio:https://chat.qwen.ai
- 官方博客:https://qwen.ai/blog?id=qwen3.6-35b-a3b
- Qwen Code:https://github.com/QwenLM/qwen-code
- Qwen Agent:https://github.com/QwenLM/Qwen-Agent
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/268725.html