2026年书中徜徉的读者:阿里&34;造孽啊&34;!40亿参数的国产小模型,竟然把GPT

书中徜徉的读者:阿里&34;造孽啊&34;!40亿参数的国产小模型,竟然把GPT阿里 造孽啊 40 亿参数的国产小模型 竟然把 GPT 4o 干趴下了 刚刚看到一组实测数据 直接把我看傻了 有人用 Claude Opus 4 6 当裁判 从 WildChat 数据集里随机抽了 1000 条真实用户 prompt 让 Qwen3 5 4B 和 GPT 4o 正面 PK 结果 Qwen3 5 4B 赢了 499 次 GPT 4o 只赢了 431 次 剩下 70 次打平 也就是说

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



阿里”造孽啊”!40亿参数的国产小模型,竟然把GPT-4o干趴下了?

刚刚看到一组实测数据,直接把我看傻了。有人用Claude Opus 4.6当裁判,从WildChat数据集里随机抽了1000条真实用户prompt,让Qwen3.5-4B和GPT-4o正面PK。结果Qwen3.5-4B赢了499次,GPT-4o只赢了431次,剩下70次打平。也就是说,这个只有40亿参数的小模型,在真实场景里居然压过了OpenAI的旗舰模型。

更离谱的是对照组。同样条件下,Llama 3.1 8B打GPT-4o,胜率只有7%,几乎被碾压。Qwen3.5-4B的参数比Llama还少一半,表现却天差地别。

之前不少人质疑国产模型只会刷榜,这次用的是去重的真实用户提问,非代码非STEM窄任务,总没法说”刷分”了吧?看来阿里这波确实有点东西。

















小讯
上一篇 2026-03-10 18:50
下一篇 2026-03-10 18:52

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/211651.html