千问Qwen3横空出世：8大模型，2350亿参数，阿里版OpenAI来了！

科技前沿 • 2026-04-04 12:56 • 阅读 0

千问Qwen3横空出世：8大模型，2350亿参数，阿里版OpenAI来了！一觉醒来发现 Qwen3 竟然更新了其实昨天晚上已经有消息放出来准备在凌晨搞个大的 Qwen3 一经发布确实火爆了整个大模型圈一晚上的功夫 GitHub 上的 qwen3 项目星星数已经高达 17 5K 而且这次开放出来的模型直接也可以在千问官网直接使用果然阿里才是真正的 OpenAI 在官网上已经可以选择 Qwen3 235B 模型进行回答了从 Qwen 到这次的 Qwen3 模型相关社区上

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

一觉醒来，发现Qwen3竟然更新了，其实昨天晚上已经有消息放出来准备在凌晨搞个大的。Qwen3一经发布，确实火爆了整个大模型圈。一晚上的功夫，GitHub上的qwen3项目星星数已经高达17.5K

而且这次开放出来的模型，直接也可以在千问官网直接使用，果然阿里才是真正的OpenAI。在官网上已经可以选择Qwen3-235B模型进行回答了。

从Qwen到这次的Qwen3模型，相关社区上，基于千问系列模型已经有上千个了，说明在开源社区上，Qwen系列模型确实是最后的开源模型，没有之一。

这次Qwen3模型发布了高达8个模型，又分为了两大类别。一个是Dense架构的大模型，其参数量会偏少一点。另一个是基于MOE架构训练的超大模型，最高参数量达235B.

对于不同的模型选择，可以参考下面这张图：手机端侧应用，最大可以部署Qwen3-4B模型，而普通复杂任务则可以选择14B或者32B模型。

先来看看整体模型的跑分情况。从多个维度上看，包括数学维度、代码生成等等，都比o1模型、R1模型要高。

1.训练流程

1

预训练过程

Qwen3 的预训练分为三个阶段，使用了约 36 万亿个 token 的数据，涵盖 119 种语言和方言，数据量是 Qwen2.5 的两倍。

阶段一：基础语言能力构建（S1）

阶段二：知识密集型数据强化（S2）

阶段三：长上下文处理能力增强（S3）

2

后训练过程

为实现“思考模式”与“非思考模式”的无缝切换，Qwen3 进行了四阶段的后训练流程：

阶段一：长思维链冷启动

阶段二：基于推理的强化学习（RL）

阶段三：思维模式融合

阶段四：通用强化学习

整体得后训练过程如下图所示：

最后再通过蒸馏得方法，得到小参数量得几个模型：30B、14B等。

2.核心亮点

这次的核心亮点在于Qwen3引入了“思考模式（thinking mode）”和“非思考模式（non-thinking mode）”的混合推理机制

这种“混合思考模式”最早出现在 Claude 3.7 Sonnet，近期谷歌最新发布的 Gemini 2.5 Flash 也采用了类似设计。混合思考模式支持一模两用：当用户启用思考模式时，模型在作答前会进行更深入的推理，适用于需要复杂推理与深度分析的任务；而在禁用思考模式时，模型则以更快、更接近即时的速度响应，适合处理常规、轻量型任务。在 Qwen 3 的思考模式下，也同样符合 test-time scaling law —— 即推理过程中使用的 token 越多，模型的最终表现越好。

具体在代码中，使用enable_thinking参数控制是否启用思考模式：

在官网使用中，可以选择设置思考的长度token数量

当然拿最简单的数学问题给它：9.9和9.11哪个大，它还是很快就给出正确答案

得益于MoE架构，Qwen3在保持高性能的同时，大幅降低了资源消耗：

3.常规测试

Q1：吃瓜文档快速整理并生成文档。

有时候微信经常收到需要吃瓜的pdf文档，但是文章过长，而且又没有总结要点，那这时候可以直接用大模型生成一个网页，让我们吃瓜吃得更爽

解析pdf，并把它转换成一个可视化网页作品。

最后生成的网页效果贼好，而且还有时间点描述：

Q2：将qwen3-235B-A22B反过来写

它是把每一个字符进行拆分，然后再合并结果，答案是对的。

Q3：今年2024年9月9日（星期一）开始到10月13日的放假调休安排，具体是“上6休3上3休2上5休1上2休7再上5休1” 请计算一下，除了我原本的周末假期之外，最后我因为放假多休息了几天？

测试一下难倒广大中国网友的调休怎么调的问题。之前关于调休就上过热搜

由于上一年之前国庆节和中秋是连着来，所以网友盘算着怎么调休才算最优解，这里的“上6休3上3休2上5休1上2休7再上5休1”其实就是指从中秋开始休假的缩写。

说人话就是，从中秋开始，先上6天班，再休假3天，再上3天班，再休假2天，然后上5天班，接着休1天，再上2天班，最后国庆休7天，再上5天班，最后只休1天。说实话，就算我自己打字也觉得这个假期太复杂了，简直像是念咒语一样

那时候中国网友就为了这个调休到底最后休了多少天而计算起来

既然这么难，恰好可以丢给大模型进行问答，看看Qwen3回答得怎么样

看来目前连Qwen3也回答不对这个问题，它最后给出得答案是多放了7天

但是其实答案是比正常放假多放了4天才对。

4.编程测试

在大模型竞技场上，目前已经添加了最新的Qwen3进行测试

从结论来看，目前最好的编程大模型属于Gemini-2.5-Pro

开源模型最强中，Qwen3-235B-A22B-Thinking拿到了**的成绩。

Q1：20小球七边形测试结果

主要问题出现在小球掉出了七边形，以及小球摩擦极其微弱判定为无摩擦的扣分，但整体实现效果仍然很好。得分71分与 Gemini-2.0-Flash 相当

Q2：太阳系九大行星测试结果

这个渲染中，没有正确画出九大行星出来，而且也没有土星环，也没华丽的星球效果。但是从整体上来看，得分85分与 OpenAI-o4-mini 相当

5.写在最后

从整体表现来看，这次发布的Qwen3系列模型确实体现了阿里在大模型领域的深厚技术积累与前瞻布局。尤其在混合推理机制的引入，使得Qwen3在灵活性和性能表现之间找到了一个平衡点，极大地扩展了应用场景。

从社区反响和开源情况来看，Qwen3迅速成为了大模型领域炙手可热的焦点，其GitHub上爆发式的star增长与千问官网上的便捷使用，都进一步巩固了其开源生态的领军地位。

不过，从实际测试案例来看，Qwen3模型在处理某些高度复杂、涉及具体细节计算的场景（例如复杂调休安排）仍然存在一定不足，这也提醒我们，在充分发挥大模型优势的同时，依然需要持续优化细节推理能力，以更好地满足用户在各类实际场景中的高精度需求。

总体来说，Qwen3的发布再次印证了开源大模型对行业发展的巨大推动力，同时也为未来AI模型的发展树立了新的标杆与方向。期待未来Qwen系列持续突破，实现更为强大的智能化体验。

小讯

nona banana教程

上一篇 2026-04-04 12:57

2026年2025年国内用户升级 ChatGPT Plus

下一篇 2026-04-04 12:55

nona banana教程 1773291543
一文搞懂将deepseek接入WPS，普通人也能轻松上手（附详细教程） 1773291535
热门游戏充值教程 1773291531
智谱深夜开源新一代GLM模型，推理速度快DeepSeek-R1八倍，还启用了全新域名Z.ai 1773291527
2026年Cursor简单配置 1773291519
2026年震惊！Claude Code实战代码编程！编程界最强AI编写项目代码实记！ 1773291515
最新指南｜ Midjourney合租教程，这个拼车平台比较靠谱 1773291503
【教程】Qwen Image Edit 本地部署 ComfyUI教程 1773291499
月之暗面 Kimi K2 宣布更新：上下文长度扩展至 256K，带来更快的 API 1773291495
2026年2025年国内用户升级 ChatGPT Plus 1773291555
月之暗面开源-音频理解、生成和对话生成模型：Kimi-Audio-7B-Instruct 1773291559
2026年科大讯飞(002230)2025年中报点评：智慧教育驱动增长讯飞星火应用放量 1773291571
如何用科大讯飞星火写新年贺卡文案_科大讯飞星火写新年贺卡文案诀窍【温馨】 1773291575
Browser-use 详细介绍&使用文档 1773291579
2026年DeepSeek 全面指南：95% 的人都不知道的9个技巧（建议收藏） 1773291583
阿里千问发布 Qwen3-Coder-Next：低推理成本编程智能体模型 1773291587
科大讯飞星火(智能助手软件) v5.4.0 安卓版 1773291591
2026年每周一问大模型｜豆包为什么取消联网搜索按钮？ 1773291595

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们，一经查实，本站将立刻删除。
如需转载请保留出处：https://51itzy.com/kjqy/223532.html