一觉醒来,发现Qwen3竟然更新了,其实昨天晚上已经有消息放出来准备在凌晨搞个大的。Qwen3一经发布,确实火爆了整个大模型圈。一晚上的功夫,GitHub上的qwen3项目星星数已经高达17.5K
而且这次开放出来的模型,直接也可以在千问官网直接使用,果然阿里才是真正的OpenAI。在官网上已经可以选择Qwen3-235B模型进行回答了。
从Qwen到这次的Qwen3模型,相关社区上,基于千问系列模型已经有上千个了,说明在开源社区上,Qwen系列模型确实是最后的开源模型,没有之一。
这次Qwen3模型发布了高达8个模型,又分为了两大类别。一个是Dense架构的大模型,其参数量会偏少一点。另一个是基于MOE架构训练的超大模型,最高参数量达235B.
对于不同的模型选择,可以参考下面这张图:手机端侧应用,最大可以部署Qwen3-4B模型,而普通复杂任务则可以选择14B或者32B模型。
先来看看整体模型的跑分情况。从多个维度上看,包括数学维度、代码生成等等,都比o1模型、R1模型要高。
1.训练流程
1
预训练过程
Qwen3 的预训练分为三个阶段,使用了约 36 万亿个 token 的数据,涵盖 119 种语言和方言,数据量是 Qwen2.5 的两倍。
阶段一:基础语言能力构建(S1)
阶段二:知识密集型数据强化(S2)
阶段三:长上下文处理能力增强(S3)
2
后训练过程
为实现“思考模式”与“非思考模式”的无缝切换,Qwen3 进行了四阶段的后训练流程:
阶段一:长思维链冷启动
阶段二:基于推理的强化学习(RL)
阶段三:思维模式融合
阶段四:通用强化学习
整体得后训练过程如下图所示:
最后再通过蒸馏得方法,得到小参数量得几个模型:30B、14B等。
2.核心亮点
这次的核心亮点在于Qwen3引入了“思考模式(thinking mode)”和“非思考模式(non-thinking mode)”的混合推理机制
这种“混合思考模式”最早出现在 Claude 3.7 Sonnet,近期谷歌最新发布的 Gemini 2.5 Flash 也采用了类似设计。混合思考模式支持一模两用:当用户启用思考模式时,模型在作答前会进行更深入的推理,适用于需要复杂推理与深度分析的任务;而在禁用思考模式时,模型则以更快、更接近即时的速度响应,适合处理常规、轻量型任务。在 Qwen 3 的思考模式下,也同样符合 test-time scaling law —— 即推理过程中使用的 token 越多,模型的最终表现越好。
具体在代码中,使用enable_thinking参数控制是否启用思考模式:
在官网使用中,可以选择设置思考的长度token数量

当然拿最简单的数学问题给它:9.9和9.11哪个大,它还是很快就给出正确答案
得益于MoE架构,Qwen3在保持高性能的同时,大幅降低了资源消耗:
3.常规测试
Q1:吃瓜文档快速整理并生成文档。
有时候微信经常收到需要吃瓜的pdf文档,但是文章过长,而且又没有总结要点,那这时候可以直接用大模型生成一个网页,让我们吃瓜吃得更爽
解析pdf,并把它转换成一个可视化网页作品。
最后生成的网页效果贼好,而且还有时间点描述:
Q2:将qwen3-235B-A22B反过来写
它是把每一个字符进行拆分,然后再合并结果,答案是对的。
Q3:今年2024年9月9日(星期一)开始到10月13日的放假调休安排,具体是“上6休3上3休2上5休1上2休7再上5休1” 请计算一下,除了我原本的周末假期之外,最后我因为放假多休息了几天?
测试一下难倒广大中国网友的调休怎么调的问题。之前关于调休就上过热搜
由于上一年之前国庆节和中秋是连着来,所以网友盘算着怎么调休才算最优解,这里的“上6休3上3休2上5休1上2休7再上5休1”其实就是指从中秋开始休假的缩写。
说人话就是,从中秋开始,先上6天班,再休假3天,再上3天班,再休假2天,然后上5天班,接着休1天,再上2天班,最后国庆休7天,再上5天班,最后只休1天。说实话,就算我自己打字也觉得这个假期太复杂了,简直像是念咒语一样
那时候中国网友就为了这个调休到底最后休了多少天而计算起来
既然这么难,恰好可以丢给大模型进行问答,看看Qwen3回答得怎么样
看来目前连Qwen3也回答不对这个问题,它最后给出得答案是多放了7天
但是其实答案是比正常放假多放了4天才对。
4.编程测试
在大模型竞技场上,目前已经添加了最新的Qwen3进行测试
从结论来看,目前最好的编程大模型属于Gemini-2.5-Pro
开源模型最强中,Qwen3-235B-A22B-Thinking拿到了**的成绩。
Q1:20小球七边形测试结果
主要问题出现在小球掉出了七边形,以及小球摩擦极其微弱判定为无摩擦的扣分,但整体实现效果仍然很好。得分71分与 Gemini-2.0-Flash 相当
Q2:太阳系九大行星测试结果
这个渲染中,没有正确画出九大行星出来,而且也没有土星环,也没华丽的星球效果。但是从整体上来看,得分85分与 OpenAI-o4-mini 相当
5.写在最后
从整体表现来看,这次发布的Qwen3系列模型确实体现了阿里在大模型领域的深厚技术积累与前瞻布局。尤其在混合推理机制的引入,使得Qwen3在灵活性和性能表现之间找到了一个平衡点,极大地扩展了应用场景。
从社区反响和开源情况来看,Qwen3迅速成为了大模型领域炙手可热的焦点,其GitHub上爆发式的star增长与千问官网上的便捷使用,都进一步巩固了其开源生态的领军地位。
不过,从实际测试案例来看,Qwen3模型在处理某些高度复杂、涉及具体细节计算的场景(例如复杂调休安排)仍然存在一定不足,这也提醒我们,在充分发挥大模型优势的同时,依然需要持续优化细节推理能力,以更好地满足用户在各类实际场景中的高精度需求。
总体来说,Qwen3的发布再次印证了开源大模型对行业发展的巨大推动力,同时也为未来AI模型的发展树立了新的标杆与方向。期待未来Qwen系列持续突破,实现更为强大的智能化体验。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/223532.html