阿里”造孽啊”!40亿参数的国产小模型,竟然把GPT-4o干趴下了?
刚刚看到一组实测数据,直接把我看傻了。有人用Claude Opus 4.6当裁判,从WildChat数据集里随机抽了1000条真实用户prompt,让Qwen3.5-4B和GPT-4o正面PK。结果Qwen3.5-4B赢了499次,GPT-4o只赢了431次,剩下70次打平。也就是说,这个只有40亿参数的小模型,在真实场景里居然压过了OpenAI的旗舰模型。
更离谱的是对照组。同样条件下,Llama 3.1 8B打GPT-4o,胜率只有7%,几乎被碾压。Qwen3.5-4B的参数比Llama还少一半,表现却天差地别。
之前不少人质疑国产模型只会刷榜,这次用的是去重的真实用户提问,非代码非STEM窄任务,总没法说”刷分”了吧?看来阿里这波确实有点东西。
刚刚看到一组实测数据,直接把我看傻了。有人用Claude Opus 4.6当裁判,从WildChat数据集里随机抽了1000条真实用户prompt,让Qwen3.5-4B和GPT-4o正面PK。结果Qwen3.5-4B赢了499次,GPT-4o只赢了431次,剩下70次打平。也就是说,这个只有40亿参数的小模型,在真实场景里居然压过了OpenAI的旗舰模型。
更离谱的是对照组。同样条件下,Llama 3.1 8B打GPT-4o,胜率只有7%,几乎被碾压。Qwen3.5-4B的参数比Llama还少一半,表现却天差地别。
之前不少人质疑国产模型只会刷榜,这次用的是去重的真实用户提问,非代码非STEM窄任务,总没法说”刷分”了吧?看来阿里这波确实有点东西。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/211651.html