2026年书中徜徉的读者：阿里&34;造孽啊&34;！40亿参数的国产小模型，竟然把GPT

科技前沿 • 2026-03-10 18:51 • 阅读 12

书中徜徉的读者：阿里&34;造孽啊&34;！40亿参数的国产小模型，竟然把GPT阿里造孽啊 40 亿参数的国产小模型竟然把 GPT 4o 干趴下了刚刚看到一组实测数据直接把我看傻了有人用 Claude Opus 4 6 当裁判从 WildChat 数据集里随机抽了 1000 条真实用户 prompt 让 Qwen3 5 4B 和 GPT 4o 正面 PK 结果 Qwen3 5 4B 赢了 499 次 GPT 4o 只赢了 431 次剩下 70 次打平也就是说

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

阿里”造孽啊”！40亿参数的国产小模型，竟然把GPT-4o干趴下了？

刚刚看到一组实测数据，直接把我看傻了。有人用Claude Opus 4.6当裁判，从WildChat数据集里随机抽了1000条真实用户prompt，让Qwen3.5-4B和GPT-4o正面PK。结果Qwen3.5-4B赢了499次，GPT-4o只赢了431次，剩下70次打平。也就是说，这个只有40亿参数的小模型，在真实场景里居然压过了OpenAI的旗舰模型。

更离谱的是对照组。同样条件下，Llama 3.1 8B打GPT-4o，胜率只有7%，几乎被碾压。Qwen3.5-4B的参数比Llama还少一半，表现却天差地别。

之前不少人质疑国产模型只会刷榜，这次用的是去重的真实用户提问，非代码非STEM窄任务，总没法说”刷分”了吧？看来阿里这波确实有点东西。

GPT plus 代充只需 145

小讯

2026年梓哲悟语：时间线上看到居然有人把豆包、Qwen、Claude 叫做 Agent（智能体）。Agent 是什么，早先我曾在帖子里面提到过：LLM（大脑）+ Memory（长期／短期记忆）+ Planner（规划）+ Tool Use（工具调用） = AI Agent。如果一个东西满足了以上定义，它就是 Agent。推上最常见 Code Agent 是： Claude

上一篇 2026-03-10 18:50

黄橙橘绿：2026.2.19 全球科技热点一 AI 大模型与应用• GPT

下一篇 2026-03-10 18:52

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们，一经查实，本站将立刻删除。
如需转载请保留出处：https://51itzy.com/kjqy/211651.html

2026年书中徜徉的读者：阿里&34;造孽啊&34;！40亿参数的国产小模型，竟然把GPT

相关推荐