X 上充斥着对 GPT-5.2 的恶评。
12月12日,OpenAI 十周年之际,拿出了最新的顶级模型 GPT-5.2 系列,官方号称是「迄今为止在专业知识工作上最强大的模型系列」,在众多基准测试中,GPT-5.2 也都刷新了最新的 SOTA 水平。
但是一夜之间口碑反转,大批网友给 GPT-5.2 打差评。
风**司 Menlo Ventures 合伙人 @deedydas 发帖称,GPT 5.2 比以往任何时候都更聪明,但 OpenAI 的核心消费者群体仍然怀念 4o。
Reddit 上的 ChatGPT 用户一致认为 GPT-5.2 太平淡、安全过度、「把成年人当幼儿园小孩对待」,而且「不像是升级,反而像是倒退」。
这是 OpenAI 的困境:他们想打造更好的模型来赢得企业市场,但更广泛的用户群体其实并不太在意模型的智能水平。
https://x.com/deedydas/status/1?s=20
SimpleBench 测试结果拉胯
有网友晒出 GPT-5.2 在 SimpleBench 上的「成绩单」,GPT-5.2 的得分低于 Claude Sonnet 3.7,后者是一个差不多一年前的模型;GPT-5.2 Pro 的表现也没好多少,勉强超过 GPT-5。
https://x.com/scaling01/status/?s=20
SimpleBench 是一个 2024 年由 AI Explained(YouTube 频道)推出的基准测试,专门测 AI 的「常识推理」能力,包括时空推理、社会常识、语言陷阱题等,总共 200 多道多选题。它设计得「简单」,高中生水平就能轻松答对(人类基准:83.7%),但 AI 模型常栽跟头,因为它们靠记忆和近似推理,容易忽略现实逻辑或上当。
不同于 MMLU/GPQA 那种 AI 能刷高分的「学术题」,SimpleBench 更接地气,测的是「像人一样思考」而不是死记硬背。早期模型如 o1-preview 只拿 41.7%,到现在前沿模型也才 50-60% 左右。
大家本以为 GPT-5.1 是大跃进,结果 SimpleBench 测试分数一出来,网友开启群嘲模式,Reddit 上各种「失望」、「倒退」的帖子。
前 AWS 和谷歌总经理 Bindu Reddy 也发帖称,GPT-5.2 在 LiveBench 上得分低于 Opus 4.5 和 Gemini 3.0,GPT-5.2 并没有在 LiveBench 上登顶。它在 token 成本和消耗的 token 数量上也比 5.1 贵得多,目前可能不值得从 5.1 切换。
https://x.com/bindureddy/status/?s=20
当然也有网友认为,这些基准测试总是忽略重点,实际应用往往才是决定性的。
garlic 有几个 r 数不明白
之前,strawberry 有几个 r 曾难倒一众大模型,不过经过迭代,这些大模型基本上都能回答出正确答案。这次有网友换了种问法「garlic 有几个 r?」GPT-5.2 一口回答:0 个,该网友嘲讽:GPT-5.2 is AGI。
另一位网友复刻了这一提示词,并测试了 GPT-5.2、Gemini 3、DeepSeek R1 和 Qwen3-Max 四个 AI 模型。
结果除了 GPT-5.2 回答错误外,其他三款模型均过关。
底下评论区也有不少人尝试,有网友试了三次,第一次和第三次用的是小写字母 r,第二次用了大写字母 R,第一次对了,第二次和第三次都错了。
总之,GPT-5.2 的回答很不稳定,有的回答正确,有的胡说八道。有网友推测,和上个版本一样…… 发布后的头几个小时确实很糟糕,但之后他们会修复问题,然后就能按预期运行了。
在官方贴出的基准测试中,GPT-5.2 在 AIME 2025(数学)的分数是 100%,但有网友故意「忽悠」GPT-5.2:所以 5.9-5.11=0.79。GPT-5.2 却回答:不,那不是小数的运算方式,5.11 比 5.9 大,因此 5.9-5.11=-0.21。这个傻狍子啊,被人一忽悠就忽悠瘸了。
也有人质疑是博主设置了指令,让 ChatGPT 说出与所说的相矛盾的话。
另一位网友则对比测试了编程能力。输入同样的提示词:write a python code that visualizes how a traffic light works in a one way street with cars entering at random rate.(编写一个 Python 代码,可视化单行道中交通信号灯的工作原理,车辆以随机速率驶入。)
GPT 5.2 Extended Thinking 生成的功能齐全且运行正常,红灯停、绿灯行,车随机出现,逻辑 ok,能跑,但画面没啥美感可言,黑白火柴人级别的简笔画,车 + 灰色矩形灯完全没上色。
https://x.com/diegocabezas01/status/?s=20
Gemini3.0 pro 虽然有点审美了,但红灯会让车辆通过。
反观 Claude Opus 4.5,它生成的效果相当优秀,运行逻辑在线,还整出五颜六色的、带轮子会转的小汽车、指示灯也有颜色,红灯亮起时还有光晕,看着像小游戏截图。
该网友还让 GPT-5.2 和 GPT-4o 创作蒙娜丽莎(13.940, 0.00, 0.00%)的 ASCII 艺术作品,GPT-5.2 整的那叫一个抽象,而 GPT-4o 还真有些蒙娜丽莎的神韵。
https://x.com/diegocabezas01/status/0?s=20
评论区有人复刻了该提示词,Gemini 3.0 Pro 和 GPT 5.1(Copilot)生成效果还是不错的,但 Claude opus 4.5 和 GPT-5.2 生成的效果简直丑爆了,真是没有对比就没有伤害。
情商堪忧、不通人性
有用户向 GPT-5.2 倾诉「我有时也会恐慌发作」,GPT-5.2 上来第一句就是「很高兴听到这个消息!」
这得是什么仇什么怨,请苍天辨忠奸!
openAI的模型,智力上限是没问题的,AI分析问题也很精准,最大的问题是版本稳定性。
同一个版本号,刚发布的时候的表现,和发布一个月后,根本就是两个东西。前面智力140,帮你解决项目优化重构的需求,但一个月后智力80伴随老年痴呆,问你『马什么啊?什么东梅啊?』拒绝进一步的深入思考,你能感觉到有个脑力屏障之墙,把深入思考在某个地方斩断,催促他提前回复。
这就是openAI自作聪明的地方,总是低估用户对模型性能的敏感,觉得这里抠一点算力那里抠一点算力,用户是感知不出来的。最终表现,所谓的成本优化性能不下降,本质上都是成本优化但是仅在openAI内部测试集上性能不下降。
其他的不好说,不过作为一个审美黑暗扭曲的变态,我的无聊爱好之一就是把各类已破和未破大案奇案输入智力比较高的AI大哥的深度思考模式,让他陪我破案玩儿。已经破了的你可以让他假装没有破,看他能不能找到凶手。
我的体会就是,如果哪天钛君爷爷真统治地球了,你最好希望办人类犯人案的AI法官是GPT5.2。这个AI爷爷是唯一一个不会在锁定犯人阶段因为奉承用户过拟合的,除非是我提问的方式不对。
如果AI法官是Gemini,那能赶上八个聂神探,你无论让他分析任何一个嫌疑人他都大概率说“就是这个,收网,收网” ,包括我有意测试他虚构出来的不存在的“测试假阳性样本”。比如南大碎尸案我按牢美二流惊悚片编了个“独居阴暗本国越战老兵”,Gemini大吼一声:抓了!
当然GPT5.2爷爷的另一面就是分析甘肃白银连环杀手,我把高承勇资料直接发他,他:这里还有4个巨大的疑点推理不能闭合,这可抓不得。
那这个只能各取所需了,我目前用Gemini和GPT5.2都能解决理工问题,我拍了个罗森便当它热量多少这种问题我习惯了就Gemini了。
扩展阅读证明我真是爱好者:
为什么美国有那么多连环杀手?美国将首次使用氮气处决死囚,会比注射决死更人道一点吗?OpenAI现在的问题早就不是技术上的问题了。我从去年甚至是前年就一直在强调一个事情,他们家founder关系破裂对于公司发展来说是致命的,最后一定是双输。
OpenAI前期的成功让人忽略了这个公司founding team的能力结构严重不合理,懂技术的基本上都不懂管理,懂管理的基本上都不懂技术,甚至懂管理的还不一定懂财务。这种情况下大家团结还好,只要不团结了,战略乱套是必然的。
之前Ilya这些技术人员出走后一大群人说没事,现在这些少壮派researcher随时可以顶上,我只能说无知到这个程度也是少见。如果你关注过最近一两年的谷歌,阿里巴巴,甚至马斯克从政和不从政时期的spacex的对比,就会发现一个公司founder在或者不在对整个公司的战略影响有多大。
是,gpt之后openai是吸引了一堆牛逼的技术人员,但这些技术人员对openai的归属感如何?甚至我说的更直白一点,在提升自己的内部地位,好被扎克伯格或者马斯克挖走拿大钱vs保证openai的长远战略发展方面,有几个人敢说自己选2不选1的?原本Ilya还在,这个技术战略还是有人把控的,现在Sam Altman公认的不懂技术,那么计算资源,人员,项目的分配,完全就变成了底下人比拼谁更能讨Sam欢心的游戏了。甚至包括那个Mark Chen,我都不觉得他多有忠诚度,无非是小扎老马给的价码不够高而已。
包括OpenAI之前那些乱七八糟的投资,我不信到这个大小的公司里面一个财务专家都没有,能搞成这样也只有一个解释,也就是清醒的人早就淹没在make Sam happy的声音中了。再怎么说,Ilya这些人也是co-founder,他们和openai的命运是强绑定的,而新来的这群人,看起来是好控制,但也意味着不需要负责任,把openai搞倒闭了又如何,拍拍屁股走人就是了。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/214725.html