千问Qwen3横空出世:8大模型,2350亿参数,阿里版OpenAI来了!

千问Qwen3横空出世:8大模型,2350亿参数,阿里版OpenAI来了!一觉醒来 发现 Qwen3 竟然更新了 其实昨天晚上已经有消息放出来准备在凌晨搞个大的 Qwen3 一经发布 确实火爆了整个大模型圈 一晚上的功夫 GitHub 上的 qwen3 项目星星数已经高达 17 5K 而且这次开放出来的模型 直接也可以在千问官网直接使用 果然阿里才是真正的 OpenAI 在官网上已经可以选择 Qwen3 235B 模型进行回答了 从 Qwen 到这次的 Qwen3 模型 相关社区上

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



一觉醒来,发现Qwen3竟然更新了,其实昨天晚上已经有消息放出来准备在凌晨搞个大的。Qwen3一经发布,确实火爆了整个大模型圈。一晚上的功夫,GitHub上的qwen3项目星星数已经高达17.5K

图片



而且这次开放出来的模型,直接也可以在千问官网直接使用,果然阿里才是真正的OpenAI。在官网上已经可以选择Qwen3-235B模型进行回答了。

图片



从Qwen到这次的Qwen3模型,相关社区上,基于千问系列模型已经有上千个了,说明在开源社区上,Qwen系列模型确实是最后的开源模型,没有之一。

图片



这次Qwen3模型发布了高达8个模型,又分为了两大类别。一个是Dense架构的大模型,其参数量会偏少一点。另一个是基于MOE架构训练的超大模型,最高参数量达235B.

图片



对于不同的模型选择,可以参考下面这张图:手机端侧应用,最大可以部署Qwen3-4B模型,而普通复杂任务则可以选择14B或者32B模型。

图片


先来看看整体模型的跑分情况。从多个维度上看,包括数学维度、代码生成等等,都比o1模型、R1模型要高。

图片





1.训练流程

1

预训练过程

Qwen3 的预训练分为三个阶段,使用了约 36 万亿个 token 的数据,涵盖 119 种语言和方言,数据量是 Qwen2.5 的两倍。


阶段一:基础语言能力构建(S1)


阶段二:知识密集型数据强化(S2)


阶段三:长上下文处理能力增强(S3)



2

后训练过程

为实现“思考模式”与“非思考模式”的无缝切换,Qwen3 进行了四阶段的后训练流程:


阶段一:长思维链冷启动


阶段二:基于推理的强化学习(RL)


阶段三:思维模式融合


阶段四:通用强化学习


整体得后训练过程如下图所示:

图片


最后再通过蒸馏得方法,得到小参数量得几个模型:30B、14B等。



2.核心亮点

这次的核心亮点在于Qwen3引入了“思考模式(thinking mode)”和“非思考模式(non-thinking mode)”的混合推理机制


这种“混合思考模式”最早出现在 Claude 3.7 Sonnet,近期谷歌最新发布的 Gemini 2.5 Flash 也采用了类似设计。混合思考模式支持一模两用:当用户启用思考模式时,模型在作答前会进行更深入的推理,适用于需要复杂推理与深度分析的任务;而在禁用思考模式时,模型则以更快、更接近即时的速度响应,适合处理常规、轻量型任务。在 Qwen 3 的思考模式下,也同样符合 test-time scaling law —— 即推理过程中使用的 token 越多,模型的最终表现越好。


具体在代码中,使用enable_thinking参数控制是否启用思考模式:



在官网使用中,可以选择设置思考的长度token数量

图片


当然拿最简单的数学问题给它:9.9和9.11哪个大,它还是很快就给出正确答案

图片
图片




得益于MoE架构,Qwen3在保持高性能的同时,大幅降低了资源消耗:


3.常规测试

Q1:吃瓜文档快速整理并生成文档。

有时候微信经常收到需要吃瓜的pdf文档,但是文章过长,而且又没有总结要点,那这时候可以直接用大模型生成一个网页,让我们吃瓜吃得更爽

解析pdf,并把它转换成一个可视化网页作品。

图片


最后生成的网页效果贼好,而且还有时间点描述:

图片



Q2:将qwen3-235B-A22B反过来写

它是把每一个字符进行拆分,然后再合并结果,答案是对的。

图片



Q3:今年2024年9月9日(星期一)开始到10月13日的放假调休安排,具体是“上6休3上3休2上5休1上2休7再上5休1”  请计算一下,除了我原本的周末假期之外,最后我因为放假多休息了几天?


测试一下难倒广大中国网友的调休怎么调的问题。之前关于调休就上过热搜

图片



由于上一年之前国庆节和中秋是连着来,所以网友盘算着怎么调休才算最优解,这里的“上6休3上3休2上5休1上2休7再上5休1”其实就是指从中秋开始休假的缩写。

图片


说人话就是,从中秋开始,先上6天班,再休假3天,再上3天班,再休假2天,然后上5天班,接着休1天,再上2天班,最后国庆休7天,再上5天班,最后只休1天。说实话,就算我自己打字也觉得这个假期太复杂了,简直像是念咒语一样

图片



那时候中国网友就为了这个调休到底最后休了多少天而计算起来

图片


既然这么难,恰好可以丢给大模型进行问答,看看Qwen3回答得怎么样

看来目前连Qwen3也回答不对这个问题,它最后给出得答案是多放了7天

图片



但是其实答案是比正常放假多放了4天才对。



4.编程测试

在大模型竞技场上,目前已经添加了最新的Qwen3进行测试

图片


从结论来看,目前最好的编程大模型属于Gemini-2.5-Pro

开源模型最强中,Qwen3-235B-A22B-Thinking拿到了**的成绩。


Q1:20小球七边形测试结果

主要问题出现在小球掉出了七边形,以及小球摩擦极其微弱判定为无摩擦的扣分,但整体实现效果仍然很好。得分71分与 Gemini-2.0-Flash 相当

图片


Q2:太阳系九大行星测试结果

这个渲染中,没有正确画出九大行星出来,而且也没有土星环,也没华丽的星球效果。但是从整体上来看,得分85分与 OpenAI-o4-mini 相当

图片




5.写在最后

从整体表现来看,这次发布的Qwen3系列模型确实体现了阿里在大模型领域的深厚技术积累与前瞻布局。尤其在混合推理机制的引入,使得Qwen3在灵活性和性能表现之间找到了一个平衡点,极大地扩展了应用场景。


从社区反响和开源情况来看,Qwen3迅速成为了大模型领域炙手可热的焦点,其GitHub上爆发式的star增长与千问官网上的便捷使用,都进一步巩固了其开源生态的领军地位。


不过,从实际测试案例来看,Qwen3模型在处理某些高度复杂、涉及具体细节计算的场景(例如复杂调休安排)仍然存在一定不足,这也提醒我们,在充分发挥大模型优势的同时,依然需要持续优化细节推理能力,以更好地满足用户在各类实际场景中的高精度需求。


总体来说,Qwen3的发布再次印证了开源大模型对行业发展的巨大推动力,同时也为未来AI模型的发展树立了新的标杆与方向。期待未来Qwen系列持续突破,实现更为强大的智能化体验。

小讯
上一篇 2026-04-04 12:57
下一篇 2026-04-04 12:55

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/223532.html