GPT-5.5爱说“哥布林”，OpenAI调查揭示模型奖励信号的意外影响

科技前沿 • 2026-05-01 10:44 • 阅读 15

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

【导语：近日，OpenAI用户热议GPT-5.5爱说“哥布林”这一话题。OpenAI官网正式回应，通过调查发现模型行为受微小激励因素影响，“书呆子”人格训练是导致哥布林频繁出现的重要原因。】

从GPT-5.1开始，模型养成在比喻中提及哥布林、地精等奇幻生物的习惯。起初，答案中出现一个“哥布林”可能还挺可爱，但随着模型版本更新，这个问题愈发明显。25年11月，GPT-5.1发布后，ChatGPT中“goblin”的使用率上升了175%，“gremlin”的使用率上升了52%。

经过内部分析，发现根本原因与“书呆子”人格训练有关。“书呆子”人格使用的系统提示，使得在选择该人格的用户生产环境中，提及这些生物的语言尤为常见。书呆子风格仅占ChatGPT所有回复的2.5%，但在所有提及“goblin”的回复中，书呆子风格占了66.7%。

通过Codex比较发现，最初旨在鼓励“书呆子”人格设计的奖励信号，更倾向于包含生物词汇的输出，在76.2%的数据集中均观察到这种正向提升。而且这种行为风格具有迁移性，即使没有“书呆子”性格提示，“哥布林”和“小妖精”的提及率也会增加。

3月份发布GPT-5.4后，OpenAI弃用了“书呆子”人格，在训练过程中移除与哥布林相关的奖励信号，并过滤包含生物词汇的训练数据。但由于GPT-5.5的训练开始于找到根本原因之前，测试时仍出现对哥布林的异常偏好，随后添加开发者提示指令缓解问题。

模型中的“哥布林”现象，有力证明了奖励信号会以意想不到的方式塑造模型行为，以及模型会将特定情境下的奖励泛化到不相关情境中。这项研究为研究团队开发了新工具，用于审核模型行为并从根本上解决问题。

编辑观点：OpenAI此次对“哥布林”现象的研究，展现了对模型行为异常的重视，有助于提升模型的可控性和稳定性，为未来大模型的发展提供了宝贵经验。