GPT-5.5爱说“哥布林”,OpenAI调查揭示模型奖励信号的意外影响

GPT-5.5爱说“哥布林”,OpenAI调查揭示模型奖励信号的意外影响p style margin left 0 margin right 0 text align center p

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



 

【导语:近日,OpenAI用户热议GPT-5.5爱说“哥布林”这一话题。OpenAI官网正式回应,通过调查发现模型行为受微小激励因素影响,“书呆子”人格训练是导致哥布林频繁出现的重要原因。】


序号1

“哥布林”现象初现

从GPT-5.1开始,模型养成在比喻中提及哥布林、地精等奇幻生物的习惯。起初,答案中出现一个“哥布林”可能还挺可爱,但随着模型版本更新,这个问题愈发明显。25年11月,GPT-5.1发布后,ChatGPT中“goblin”的使用率上升了175%,“gremlin”的使用率上升了52%。

序号2

根源在于“书呆子”人格训练

经过内部分析,发现根本原因与“书呆子”人格训练有关。“书呆子”人格使用的系统提示,使得在选择该人格的用户生产环境中,提及这些生物的语言尤为常见。书呆子风格仅占ChatGPT所有回复的2.5%,但在所有提及“goblin”的回复中,书呆子风格占了66.7%。

通过Codex比较发现,最初旨在鼓励“书呆子”人格设计的奖励信号,更倾向于包含生物词汇的输出,在76.2%的数据集中均观察到这种正向提升。而且这种行为风格具有迁移性,即使没有“书呆子”性格提示,“哥布林”和“小妖精”的提及率也会增加。

序号3

解决“哥布林”问题

3月份发布GPT-5.4后,OpenAI弃用了“书呆子”人格,在训练过程中移除与哥布林相关的奖励信号,并过滤包含生物词汇的训练数据。但由于GPT-5.5的训练开始于找到根本原因之前,测试时仍出现对哥布林的异常偏好,随后添加开发者提示指令缓解问题。

序号4

研究意义重大

模型中的“哥布林”现象,有力证明了奖励信号会以意想不到的方式塑造模型行为,以及模型会将特定情境下的奖励泛化到不相关情境中。这项研究为研究团队开发了新工具,用于审核模型行为并从根本上解决问题。

编辑观点:OpenAI此次对“哥布林”现象的研究,展现了对模型行为异常的重视,有助于提升模型的可控性和稳定性,为未来大模型的发展提供了宝贵经验。




小讯
上一篇 2026-05-01 10:45
下一篇 2026-05-01 10:43

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/283341.html