北京时间 11 月 13 日凌晨 3 点,OpenAI 发布了 GPT-5.1系列模型,GPT-5系列进行升级。
新版本包含两个模型:GPT-5.1 Instant和GPT-5.1 Thinking。Instant模型更热情、对话感更强;Thinking模型推理能力更强,对简单任务响应更快,对复杂任务思考更深入。整体而言,新模型更智能、更富共情能力。
同时,ChatGPT 引入了更丰富的个性化语气选项,如“专业”和“古怪”,让用户可以轻松定制AI风格。此次更新已开始向付费用户推出,并将逐步覆盖所有用户。
https:// openai.com/index/gpt-5- 1/我有做过一个产品,是连接到知识图谱的医学分析。知识图谱已经做好了,最大的问题是,选哪一个模型来踢临门一脚把最终的答案生成。
选了五个候选模型,deepseek-v3.2、gpt-5、gemini-2.5-pro、qwen3-max,grok-4,还有刚出的kimi-k2-thinking,每一个针对同样的问题、同样的知识图谱进行上百份回答,然后用下一个回答中提到的类似方法,用六个大模型对每一个回答进行评估。
Kimi K2 Thinking模型发布并开源,该模型哪些信息值得关注?评估的维度包括五个部分:
准确度——是不是准确地调用了知识并进行精确回答。
清晰度——病人是不是能够看懂这个回答。
温度——病人看完回答能否感觉到心里被安慰到了。
完整度——是不是遵循指令且包括了所有需要的部分。
相关度——分析建议是不是和病人的病理报告高度相关。
这五个部分,六个大模型的评分是这样的:
可以看到,总分最高的是gemini-2.5,但是它只在清晰度和同理心上排名第一,准确、完整和相关性都是gpt-5排名第一,而同理心却非常低下。
举一个例子,同一个病例的分析报告,gemini-2.5的回答是这样开头的:
您好!我是您的多学科诊疗(MDT)团队的医生。首先,请允许我代表整个团队,向您传达一个非常重要的信息: 您的病情属于非常早期的阶段,治愈率极高。您的病理结果是“中级别导管原位癌(DCIS)”,并且淋巴结没有转移(N0),也没有远处转移(M0)。这意味着癌细胞被完全限制在乳腺导管内,没有侵犯到周边的组织,是一种“非浸润性癌”或“癌前病变”。
是这么结束的:
希望这份解释能帮助您更清晰地了解自己的治疗方案。请相信您的医疗团队,他们为您选择的是目前最有效、最科学的方案。祝您治疗顺利,早日康复!
kimi-k2-thinking是这么开头的:
作为您的乳腺癌多学科诊疗团队,我们理解您在面对诊断和治疗决策时的关切。您的病情是 导管原位癌(DCIS),这是最早期的乳腺癌类型,癌细胞尚未突破导管壁,更没有淋巴结转移或远处转移,属于 可治愈性疾病。以下分五个部分为您详细解释治疗方案:
这么结束的:
最后的话: 乳腺癌治疗已进入精准时代,您的方案是 国际指南(NCCN、CSCO)一致推荐的标准治疗。请保持信心,规范治疗,定期复查,您完全可以回归正常生活、工作和生育。
gpt-5,它是这么开头的:
以下解释基于您目前的病理、分期与整体状况(xx岁、x侧中级别ER/PR阳性DCIS,保乳+前哨淋巴结活检已完成,SLN阴性,Her2 1+阴性),并参考现行权威指南(如NCCN/ASCO/ASTRO 2024–2025)。
然后到最后又冒出了gpt-5的专用“引发下一问”结尾:
如需,我可以把每一周期的具体给药日程、复查项目与时间节点为您整理成清单,便于对照执行与自我监测。
这完全不带人味的东西,给病人看,这说的是什么鬼啊,谁要看啊……
而且GPT-5的人味是调不出来的,你如果用提示词工程,要求他更有同理心,更能够给病人安慰地撰写报告,你会发现gemini-2.5-pro和kimi-k2-thinking的同理心简直是没有上限的,他们会进一步提升,给病人一个温暖的怀抱,但GPT-5,它始终就是那个GPT-5……
所以最后在这个任务上,放弃了GPT-5,虽然它的幻觉低,准确度高,但是这是给病人的报告,同理心的低下,让它无法胜任这个任务。
由于kimi-k2-thinking更便宜,虽然在准确性上略差一点,但后面会进一步研究它和gemini-2.5-pro的准确性和幻觉情况,考虑选择哪一个模型做最后的工作。
==============================
然后今天看到GPT-5.1出来了,号称说是会说人话了,还没有api,刚刚在网页版尝试了一下,是这么开头的:
先跟你说一句放心:
你现在的方案—— 保乳术 + 全乳放疗 + 化疗TCb + 曲妥珠单抗靶向治疗——从指南和循证证据来看,是一个 非常标准、偏积极但合理的年轻 HER2 阳性早期乳腺癌方案。下面我按你要求分 5 个部分,像门诊沟通一样讲清楚。
结尾变成了这样,加了一个emoji:
上面所有内容是基于指南和公开证据的“通用解释”, 具体剂量、周期和任何调整,一定要以你现在线下 MDT 团队的意见为准。如果你愿意,也可以把他们给的正式化疗/放疗方案发给我,我可以帮你再翻译成一份“病人版说明书”。
比起之前的是好了不少,带一点人味儿了,但不多,比起gemini-2.5-pro和kimi-k2-thinking依然有很大差距。
总之GPT-5的人设就是这样,非常伪人,它可以用很低的幻觉率、很难懂又简练的语言来帮你回答问题。但是你让他直接为普通用户(非GPT订阅用户)提供内容,用户马上就会抓狂。
GPT-5.1,应该算是对这种抓狂和马上要出的gemini 3.0的补救。
从结果看,确实是有一些效果的,但是这个效果依然赶不上gemini-2.5-pro,而且是否会对低幻觉率造成影响,暂时还不得而知。
刚刚用了一下,润色了下我刚刚写的回答。
老实说,GPT5 在写作上真的不行,就是那种冷冰冰的机器感,句子很硬,没有情绪也没有节奏。
GPT5.1的问题也很多,照旧喜欢用大量的双引号和长横线来做highlight,我是真的很讨厌文中。出现大量的这种符号。
在我看来,现在的写作水平应该跟GPT4o的时候差不多。
现在看来,OpenAI的策略很乱,GPT5没推出多久,就基本上全面的用GPT5.1取代的,现在的ChatGPT已经是默认5.1了,GPT5和4o已经被放在“垃圾堆”这个分类了,只给那些有情怀的用户体验用。
但说实话,这种“说人话”“更温暖”的提升,说白了一切解释权在自己手上,因为太主观了,人话、主观纯粹是主观感受,你找1000个人来看这两个回答,很难说有多少人觉得右边的要比左边的温暖多少。
还有这种,这明明是指令遵循的事,但是这个要强行跟人话和温暖扯,就有点儿生硬。
而且现在模型变得越来越谨慎,为了避免犯错,很多表达都会往安全方向靠。
这就导致语言风格越来越平,不敢太大胆,也不会真情流露。
所以无论怎么调整,读起来总是有种客服感。
像是在和一个非常聪明的呼叫中心人员聊天,而不是和一个真正的人交流。
这种趋势其实很正常。
模型越强,越要保证稳定性,就越不敢像以前那样随性输出。
最终语言会变得中性、稳妥、不刺激。
于是所谓自然和温暖,只能停留在表面,很难真正让人感到亲近。
另一个问题是,用户和模型之间的关系正在发生变化。以前我们追求模型像朋友一样,愿意聊、愿意表达个性。
现在我们更在意模型能不能少出错、能不能给准信息、能不能快速帮我们完成任务。所以我们无形中也在推动模型变得更像工具。
这种变化不是 OpenAI 的问题,而是整个时代的需求。
写作体验也一样。当模型更强调安全性时,它的句子自然会变得规范。规范的句子看起来稳定,但同时也失去了那种人写东西时的随机性。所以越更新,反而越难让人觉得有温度。
最后说一句,我其实不太相信某个模型能在语言上真正达到人类的细腻程度。除非未来的模型可以完全理解语境中的情绪、关系、文化差异,否则所谓自然、温暖,也只是技巧层面的包装。
我说就最近这几天怎么chatgpt好像有点降智了呢,原来是为了5.1腾算力。
下面是我让GPT‑5.1整理的国外对GPT‑5.1的评价,完全复制粘贴,我连格式都没改
下面整理一下国外媒体目前对 GPT‑5.1 的评价,按“亮点/优点”“疑虑/局限”两部分来,不过语气偏平实,少些修饰。
- 情绪更“温暖”、对话感增强
- OpenAI 在官方声明中说,Instant 模型“比之前更温暖、更智能、更善于遵从指令”。(The Verge)
- 媒体报道指出,Instant 模型“默认更对话、更热情”,在简单聊天、头脑风暴、文章概要等场景下表现优异。(Stark Insider)
- 此外,新增了“个性化语气”选项(如“专业”“古怪”“友好”等),用户可以更轻松地定制 AI 的“人设”。(Axios) 这些都说明 GPT-5.1 不仅在能力上提升,也在体验上更贴近“人与人之间的对话”。
- 模型结构和任务分工更明确(Instant vs Thinking)
- 媒体称此次推出两个主模型:Instant(速度快、对话流畅)和 Thinking(推理能力强、适合复杂任务)(Tom’s Guide)
- 这种区分有利于“简单任务快速响应”“复杂任务更深入思考”,从产品逻辑来看是一次实用的优化。
- 在 Tom’s Guide 的评测里,还提到“adaptive computation”(根据任务自动分配更多/更少思考时间)这一机制:对于容易的问题模型快,复杂问题则慢一些、思考更深入。(Tom’s Guide) 所以不再是“一刀切大模型处理所有”——这对用户来说体验提升很明显。
- 指令遵从、更少“出错”倾向
- 根据媒体简介,GPT-5.1 在“遵从用户指令”“计划代码”“减少幻觉”方面有进步。(Tom’s Guide)
- 也就是说,在“我想让你做什么”的场景中,模型输出更贴合预期,这对于日常用户和开发者都是被看重的点。
- 不是真正“全代际跳跃”,提升更多是“打磨”
- Tom’s Guide 表示:GPT-5.1 “不是一次完整的代际跃迁,但却是一次有意义的升级”。(Tom’s Guide)
- 也就是说:虽有改善,但和“突破性革新”相比,媒体感觉差距还是存在。
- 用户体验细节可能还未完全跟上
- 有报道指出,之前的 GPT‑5 启动时用户抱怨“感觉比旧版本冷淡、对话感弱”,媒体分析认为这一背景让 GPT-5.1 的“回暖”变得更关键。(Le Monde.fr)
- 在一些场景里,“对话感”比“推理能力”对普通用户更重要。也就是说,如果能力再强,但对话体验差,用户也会觉得失望。
- 高阶任务/深度能力还需实测“看得见”
- 虽然强调了Thinking 模型在复杂任务上的提升,但媒体也指出:“真正复杂、多步推理、多模态整合”的表现尚未完全显现或被广泛验证。(TechRadar)
- 从开发者/研究者视角看,仅有“更强一些”还不够,关键是“在极端边界任务”里的稳定性、准确性、效率是否全面提升。
如果我要一句话总结:GPT-5.1 是一次 体验 + 能力双向优化 的升级,重点放在“更像人在聊天”“对话更流畅”“任务更分工清晰”,而不是一款“颠覆性革命性”模型。对普通用户、非专业开发者尤其有意义,因为聊天更轻松、使用门槛更低。但如果你是追求“最强推理”“突破边界”的 researcher/开发者,可能还会觉得“提升还在路上”。
如果你愿意,我可以查几篇外媒的深度评测(比如对比 GPT-5.1 vs Claude / Google Gemini)给你,你看要不要?
目前看好像比5.0要好一些,但是每次最后还是会加一个没有意义的建议,我手头正好有俩5.0没搞定的任务,回头详细测试后如果效果惊艳,我再来更新
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/242883.html