GPT-5.4 是 OpenAI 迄今为止最强大的前沿模型,在 GPT-5.2 的基础上带来了多项突破性新特性:百万 Token 上下文窗口、内置 Computer Use(直接操控 UI)、原生上下文压缩以及更精细的输出控制。强烈推荐通过 Responses API 调用,以充分利用跨轮传递推理链(chain of thought)的能力。
以下示例展示最简单的 GPT-5.4 调用:
GPT-5.4 支持高达 1,000,000 个 Token 的上下文窗口,适用于:
- 超长文档分析(整本书、完整代码库)
- 长对话历史保留
- 大规模数据摘要与问答
调用方式与普通请求相同,只需确保输入总长度不超过 1M tokens:
GPT-5.4 内置了 Computer Use 能力,模型可以直接接收屏幕截图,并输出结构化的 UI 操作指令(点击、输入、滚动、拖拽等),由调用方在本地执行这些指令,再将新截图反馈给模型,形成视觉-操作循环,从而实现自动化操控任何图形界面。
工作原理
三种集成方式
支持的操作类型
代码示例
基础单轮示例
将屏幕截图发给模型,获取第一步操作指令:
完整自动化循环(Playwright)
以下示例展示了一个完整的 Computer Use 自动化循环,使用 Playwright 执行模型返回的操作指令:
环境类型说明
参数指定运行环境,影响模型生成操作指令的方式:
GPT-5.4 引入了原生 Compaction 机制,在长 Agent 任务中自动压缩历史上下文,在保留关键信息的同时大幅降低 token 消耗,支持更长的 Agent 轨迹。
提示: 让模型自动管理上下文压缩策略。对于需要多轮迭代的 Agent 场景,推荐始终开启此选项。
GPT-5.4 在代码生成领域有显著提升,支持更大规模的代码库理解与生成。结合百万 Token 上下文,可一次性读取整个项目并生成完整解决方案:
GPT-5.4 支持四档推理强度:(默认,最低延迟)、、、。推理等级越高,模型思考越深入,但响应时间也相应增加。
推理强度说明:
控制模型的输出详尽程度,影响代码注释量、解释长度等。默认值为 。
是放在输入侧(input)assistant 消息里的字段,用于多轮对话回放历史消息时,告诉模型哪些是过渡性前言()、哪些是最终答案(),从而避免模型把前言误判为最终输出,导致多步任务早停。
注意:如果使用 传递历史, 由 API 自动保留,无需手动处理。只有手动构建对话历史时,才需要把上一轮 assistant 消息的 值原样带回。
推理内容通过 事件返回,最终答案通过 返回:
手动构建对话历史时,需把上一轮 assistant 消息的 原样带回:
GPT-5.4 延续了 GPT-5 系列的自定义工具(Custom Tools)功能,支持以任意原始文本作为工具调用输入,并可按需约束输出格式。
GPT-5.4 新增了工具搜索(Tool Search)功能,结合 CFG(Context-Free Grammar)约束输出,模型可以在大量工具定义中自动检索最相关的工具,无需手动传入完整工具列表。
提示:工具搜索特别适合工具数量庞大(数十甚至数百个)的场景。将所有工具注册后,模型会智能选择最匹配当前任务的工具,而非遍历全部工具。
© 2026 GPT-5.4 使用指南
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/235336.html