OpenAI 发布 GPT-5.1 模型，主打「更温暖」「说人话」，如何看待这一升级？

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

北京时间 11 月 13 日凌晨 3 点，OpenAI 发布了 GPT-5.1系列模型，GPT-5系列进行升级。

新版本包含两个模型：GPT-5.1 Instant和GPT-5.1 Thinking。Instant模型更热情、对话感更强；Thinking模型推理能力更强，对简单任务响应更快，对复杂任务思考更深入。整体而言，新模型更智能、更富共情能力。

同时，ChatGPT 引入了更丰富的个性化语气选项，如“专业”和“古怪”，让用户可以轻松定制AI风格。此次更新已开始向付费用户推出，并将逐步覆盖所有用户。

https:// openai.com/index/gpt-5- 1/

我有做过一个产品，是连接到知识图谱的医学分析。知识图谱已经做好了，最大的问题是，选哪一个模型来踢临门一脚把最终的答案生成。

选了五个候选模型，deepseek-v3.2、gpt-5、gemini-2.5-pro、qwen3-max，grok-4，还有刚出的kimi-k2-thinking，每一个针对同样的问题、同样的知识图谱进行上百份回答，然后用下一个回答中提到的类似方法，用六个大模型对每一个回答进行评估。

Kimi K2 Thinking模型发布并开源，该模型哪些信息值得关注？

评估的维度包括五个部分：

准确度——是不是准确地调用了知识并进行精确回答。

清晰度——病人是不是能够看懂这个回答。

温度——病人看完回答能否感觉到心里被安慰到了。

完整度——是不是遵循指令且包括了所有需要的部分。

相关度——分析建议是不是和病人的病理报告高度相关。

这五个部分，六个大模型的评分是这样的：

可以看到，总分最高的是gemini-2.5，但是它只在清晰度和同理心上排名第一，准确、完整和相关性都是gpt-5排名第一，而同理心却非常低下。

举一个例子，同一个病例的分析报告，gemini-2.5的回答是这样开头的：

您好！我是您的多学科诊疗（MDT）团队的医生。首先，请允许我代表整个团队，向您传达一个非常重要的信息： 您的病情属于非常早期的阶段，治愈率极高。您的病理结果是“中级别导管原位癌（DCIS）”，并且淋巴结没有转移（N0），也没有远处转移（M0）。这意味着癌细胞被完全限制在乳腺导管内，没有侵犯到周边的组织，是一种“非浸润性癌”或“癌前病变”。

是这么结束的：

希望这份解释能帮助您更清晰地了解自己的治疗方案。请相信您的医疗团队，他们为您选择的是目前最有效、最科学的方案。祝您治疗顺利，早日康复！

kimi-k2-thinking是这么开头的：

作为您的乳腺癌多学科诊疗团队，我们理解您在面对诊断和治疗决策时的关切。您的病情是 导管原位癌（DCIS），这是最早期的乳腺癌类型，癌细胞尚未突破导管壁，更没有淋巴结转移或远处转移，属于 可治愈性疾病。以下分五个部分为您详细解释治疗方案：

这么结束的：

最后的话： 乳腺癌治疗已进入精准时代，您的方案是 国际指南（NCCN、CSCO）一致推荐的标准治疗。请保持信心，规范治疗，定期复查，您完全可以回归正常生活、工作和生育。

gpt-5，它是这么开头的：

以下解释基于您目前的病理、分期与整体状况（xx岁、x侧中级别ER/PR阳性DCIS，保乳+前哨淋巴结活检已完成，SLN阴性，Her2 1+阴性），并参考现行权威指南（如NCCN/ASCO/ASTRO 2024–2025）。

然后到最后又冒出了gpt-5的专用“引发下一问”结尾：

如需，我可以把每一周期的具体给药日程、复查项目与时间节点为您整理成清单，便于对照执行与自我监测。

这完全不带人味的东西，给病人看，这说的是什么鬼啊，谁要看啊……

而且GPT-5的人味是调不出来的，你如果用提示词工程，要求他更有同理心，更能够给病人安慰地撰写报告，你会发现gemini-2.5-pro和kimi-k2-thinking的同理心简直是没有上限的，他们会进一步提升，给病人一个温暖的怀抱，但GPT-5，它始终就是那个GPT-5……

所以最后在这个任务上，放弃了GPT-5，虽然它的幻觉低，准确度高，但是这是给病人的报告，同理心的低下，让它无法胜任这个任务。

由于kimi-k2-thinking更便宜，虽然在准确性上略差一点，但后面会进一步研究它和gemini-2.5-pro的准确性和幻觉情况，考虑选择哪一个模型做最后的工作。

==============================

然后今天看到GPT-5.1出来了，号称说是会说人话了，还没有api，刚刚在网页版尝试了一下，是这么开头的：

先跟你说一句放心：
你现在的方案—— 保乳术 + 全乳放疗 + 化疗TCb + 曲妥珠单抗靶向治疗——从指南和循证证据来看，是一个 非常标准、偏积极但合理的年轻 HER2 阳性早期乳腺癌方案。下面我按你要求分 5 个部分，像门诊沟通一样讲清楚。

结尾变成了这样，加了一个emoji：

上面所有内容是基于指南和公开证据的“通用解释”， 具体剂量、周期和任何调整，一定要以你现在线下 MDT 团队的意见为准。如果你愿意，也可以把他们给的正式化疗/放疗方案发给我，我可以帮你再翻译成一份“病人版说明书”。

比起之前的是好了不少，带一点人味儿了，但不多，比起gemini-2.5-pro和kimi-k2-thinking依然有很大差距。

总之GPT-5的人设就是这样，非常伪人，它可以用很低的幻觉率、很难懂又简练的语言来帮你回答问题。但是你让他直接为普通用户（非GPT订阅用户）提供内容，用户马上就会抓狂。

GPT-5.1，应该算是对这种抓狂和马上要出的gemini 3.0的补救。

从结果看，确实是有一些效果的，但是这个效果依然赶不上gemini-2.5-pro，而且是否会对低幻觉率造成影响，暂时还不得而知。

刚刚用了一下，润色了下我刚刚写的回答。

老实说，GPT5 在写作上真的不行，就是那种冷冰冰的机器感，句子很硬，没有情绪也没有节奏。

GPT5.1的问题也很多，照旧喜欢用大量的双引号和长横线来做highlight，我是真的很讨厌文中。出现大量的这种符号。

在我看来，现在的写作水平应该跟GPT4o的时候差不多。

现在看来，OpenAI的策略很乱，GPT5没推出多久，就基本上全面的用GPT5.1取代的，现在的ChatGPT已经是默认5.1了，GPT5和4o已经被放在“垃圾堆”这个分类了，只给那些有情怀的用户体验用。

但说实话，这种“说人话”“更温暖”的提升，说白了一切解释权在自己手上，因为太主观了，人话、主观纯粹是主观感受，你找1000个人来看这两个回答，很难说有多少人觉得右边的要比左边的温暖多少。

还有这种，这明明是指令遵循的事，但是这个要强行跟人话和温暖扯，就有点儿生硬。

而且现在模型变得越来越谨慎，为了避免犯错，很多表达都会往安全方向靠。

这就导致语言风格越来越平，不敢太大胆，也不会真情流露。

所以无论怎么调整，读起来总是有种客服感。

像是在和一个非常聪明的呼叫中心人员聊天，而不是和一个真正的人交流。

这种趋势其实很正常。

模型越强，越要保证稳定性，就越不敢像以前那样随性输出。

最终语言会变得中性、稳妥、不刺激。

于是所谓自然和温暖，只能停留在表面，很难真正让人感到亲近。

另一个问题是，用户和模型之间的关系正在发生变化。以前我们追求模型像朋友一样，愿意聊、愿意表达个性。

现在我们更在意模型能不能少出错、能不能给准信息、能不能快速帮我们完成任务。所以我们无形中也在推动模型变得更像工具。

这种变化不是 OpenAI 的问题，而是整个时代的需求。

写作体验也一样。当模型更强调安全性时，它的句子自然会变得规范。规范的句子看起来稳定，但同时也失去了那种人写东西时的随机性。所以越更新，反而越难让人觉得有温度。

最后说一句，我其实不太相信某个模型能在语言上真正达到人类的细腻程度。除非未来的模型可以完全理解语境中的情绪、关系、文化差异，否则所谓自然、温暖，也只是技巧层面的包装。

我说就最近这几天怎么chatgpt好像有点降智了呢，原来是为了5.1腾算力。

下面是我让GPT‑5.1整理的国外对GPT‑5.1的评价，完全复制粘贴，我连格式都没改

下面整理一下国外媒体目前对 GPT‑5.1 的评价，按“亮点／优点”“疑虑／局限”两部分来，不过语气偏平实，少些修饰。

情绪更“温暖”、对话感增强

OpenAI 在官方声明中说，Instant 模型“比之前更温暖、更智能、更善于遵从指令”。(The Verge)
媒体报道指出，Instant 模型“默认更对话、更热情”，在简单聊天、头脑风暴、文章概要等场景下表现优异。(Stark Insider)
此外，新增了“个性化语气”选项（如“专业”“古怪”“友好”等），用户可以更轻松地定制 AI 的“人设”。(Axios) 这些都说明 GPT-5.1 不仅在能力上提升，也在体验上更贴近“人与人之间的对话”。

模型结构和任务分工更明确（Instant vs Thinking）

媒体称此次推出两个主模型：Instant（速度快、对话流畅）和 Thinking（推理能力强、适合复杂任务）(Tom’s Guide)
这种区分有利于“简单任务快速响应”“复杂任务更深入思考”，从产品逻辑来看是一次实用的优化。
在 Tom’s Guide 的评测里，还提到“adaptive computation”（根据任务自动分配更多/更少思考时间）这一机制：对于容易的问题模型快，复杂问题则慢一些、思考更深入。(Tom’s Guide) 所以不再是“一刀切大模型处理所有”——这对用户来说体验提升很明显。

指令遵从、更少“出错”倾向

根据媒体简介，GPT-5.1 在“遵从用户指令”“计划代码”“减少幻觉”方面有进步。(Tom’s Guide)
也就是说，在“我想让你做什么”的场景中，模型输出更贴合预期，这对于日常用户和开发者都是被看重的点。

不是真正“全代际跳跃”，提升更多是“打磨”

Tom’s Guide 表示：GPT-5.1 “不是一次完整的代际跃迁，但却是一次有意义的升级”。(Tom’s Guide)
也就是说：虽有改善，但和“突破性革新”相比，媒体感觉差距还是存在。

用户体验细节可能还未完全跟上

有报道指出，之前的 GPT‑5 启动时用户抱怨“感觉比旧版本冷淡、对话感弱”，媒体分析认为这一背景让 GPT-5.1 的“回暖”变得更关键。(Le Monde.fr)
在一些场景里，“对话感”比“推理能力”对普通用户更重要。也就是说，如果能力再强，但对话体验差，用户也会觉得失望。

高阶任务／深度能力还需实测“看得见”

虽然强调了Thinking 模型在复杂任务上的提升，但媒体也指出：“真正复杂、多步推理、多模态整合”的表现尚未完全显现或被广泛验证。(TechRadar)
从开发者／研究者视角看，仅有“更强一些”还不够，关键是“在极端边界任务”里的稳定性、准确性、效率是否全面提升。

如果我要一句话总结：GPT-5.1 是一次 体验 + 能力双向优化 的升级，重点放在“更像人在聊天”“对话更流畅”“任务更分工清晰”，而不是一款“颠覆性革命性”模型。对普通用户、非专业开发者尤其有意义，因为聊天更轻松、使用门槛更低。但如果你是追求“最强推理”“突破边界”的 researcher／开发者，可能还会觉得“提升还在路上”。

如果你愿意，我可以查几篇外媒的深度评测（比如对比 GPT-5.1 vs Claude / Google Gemini）给你，你看要不要？

目前看好像比5.0要好一些，但是每次最后还是会加一个没有意义的建议，我手头正好有俩5.0没搞定的任务，回头详细测试后如果效果惊艳，我再来更新

OpenAI 发布 GPT-5.1 模型，主打「更温暖」「说人话」，如何看待这一升级？

相关推荐