之前一直有消息称DeepSeek V4将在本周发布,而到现在还没有任何动静,只有给华为等一些厂商内测的内部爆料。
DeepSeek V4没等来,OpenAI却在深夜来了一波更新,正式发布了ChatGPT5.4,是OpenAI目前最强的模型,下面我们一起来看看它有哪些新变化?
讯享网
第一:知识工作
这是GPT5.4重点提升的地方,旨在通过AI工具帮助人类更加高效处理工作任务,比如ppt制作、excel表格处理、视频/图片生成、文档处理等等,在GDPval 测试中,其胜率 / 平局率达 83.0%,远超 GPT-5.2 的 70.9%。
第二:原生通用计算机使用能力
使用openclaw(龙虾机器人)的小伙伴都知道,我们可以通过指令让AI操作浏览器来完成各类任务,但是要操作电脑本地的其他应用将不行,这个时候需要借助视觉模型和操作模型来完成。
而GPT4.5具备原生通用计算机使用能力,这意味着如果它接入openclaw,将可以操作电脑应用,能力进一步提升。
根据测试结果显示,在 OSWorld-Verified测试中,GPT-5.4的成功率为75.0%。
而操作电脑应用需要强大的视觉模型,因为视觉模型是它的「眼睛」,有了它模型就知道页面的情况,从而实现分析和操作。在 MMMU-Pro 中,GPT-5.4 在不使用工具的情况下成功率达到了 81.2%,在 OmniDocBench 中,GPT-5.4 不需要推理可以实现平均误差 0.109。
第三:AI编程能力
GPT4.5的编程能力其实就是集成GPT-5.3-Codex的coding能力,然后再优化提升了一点点,在 SWE-Bench Pro 测试中的表现和GPT-5.3-Codex相比,略微胜出一点,但是在推理过程中延迟更低。
第四:工具调用能力
工具调用能力是各大AI模型每次升级必优化的地方,这次GPT4.5进一步优化了工具调用过程中的流程,提高了运行效率,主要的变化有两方面:
一方面是引入了工具搜索功能,模型无需提前加载所有工具定义,仅在需要时调取,在效果相同的情况下,新的流程会减少token的消耗。
另一方面是智能体工具调用更精准,在多步工具使用测试 Toolathlon 中得分 54.6%,能高效完成「读邮件 - 提取附件 - 上传 - 评分 - 记录」等复杂流程。
同时还提升了网页搜索能力,在 BrowseComp中,GPT-5.4 跃升了 17%, 而 GPT-5.4 Pro 则创下89.3%的新纪录。
第五:提供思考思路
和AI编程工具类似,GPT-5.4 Thinking 在 ChatGPT 中新增前置思考规划功能,处理复杂查询时会先给出工作思路,用户可在模型生成内容的过程中调整指令、改变方向,无需重新发起请求,大幅减少交互次数。
最后是一些参数上的变化,比如同时支持最高 100 万 token 的上下文窗口,响应速度更快,token消耗更低。
目前GPT-5.4 已在 ChatGPT、API、Codex 三大平台逐步上线,API调用的token价格也公布了,输入 2.5 美元 / 百万 token、缓存输入 0.25 美元 / 百万 token、输出 15 美元 / 百万 token;高性能版本 GPT-5.4 Pro 无缓存输入定价,输入 30 美元 / 百万 token、输出 180 美元 / 百万 token。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/209194.html