GPT-5.4 使用指南 ​

GPT-5.4 使用指南 ​GPT 5 4 是 OpenAI 迄今为止最强大的前沿模型 在 GPT 5 2 的基础上带来了多项突破性新特性 百万 Token 上下文窗口 内置 Computer Use 直接操控 UI 原生上下文压缩 以及更精细的输出控制 强烈推荐通过 Responses API 调用 以充分利用跨轮传递推理链 chain of thought 的能力 以下示例展示最简单的 GPT 5 4 调用

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



GPT-5.4 是 OpenAI 迄今为止最强大的前沿模型,在 GPT-5.2 的基础上带来了多项突破性新特性:百万 Token 上下文窗口内置 Computer Use(直接操控 UI)、原生上下文压缩以及更精细的输出控制。强烈推荐通过 Responses API 调用,以充分利用跨轮传递推理链(chain of thought)的能力。

以下示例展示最简单的 GPT-5.4 调用:

GPT-5.4 支持高达 1,000,000 个 Token 的上下文窗口,适用于:

  • 超长文档分析(整本书、完整代码库)
  • 长对话历史保留
  • 大规模数据摘要与问答

调用方式与普通请求相同,只需确保输入总长度不超过 1M tokens:

GPT-5.4 内置了 Computer Use 能力,模型可以直接接收屏幕截图,并输出结构化的 UI 操作指令(点击、输入、滚动、拖拽等),由调用方在本地执行这些指令,再将新截图反馈给模型,形成视觉-操作循环,从而实现自动化操控任何图形界面。

工作原理

三种集成方式

方式 适用场景 说明 内置循环(推荐) 快速原型、通用自动化 模型直接返回 UI 操作,由你的代码执行并循环 自定义工具/Harness 已有 Playwright/Selenium/VNC 框架 复用现有自动化框架,无需重构 代码执行 Harness 复杂混合任务 模型编写脚本,混合视觉交互与 DOM 编程访问

支持的操作类型

操作类型 说明 单击指定坐标 双击指定坐标 在指定位置滚动(支持方向和距离) 从起点拖拽到终点 移动鼠标到指定位置(不点击) 键盘输入文本 按下指定按键(如 Enter、Tab) 等待指定毫秒 请求新截图

代码示例

基础单轮示例

将屏幕截图发给模型,获取第一步操作指令:

完整自动化循环(Playwright)

以下示例展示了一个完整的 Computer Use 自动化循环,使用 Playwright 执行模型返回的操作指令:

环境类型说明

参数指定运行环境,影响模型生成操作指令的方式:

值 适用场景 Playwright、Selenium 等浏览器自动化 macOS 桌面应用(通过 Accessibility API) Windows 桌面应用(通过 Win32 API) Linux 桌面(通过 xdotool、xdg-open 等)

GPT-5.4 引入了原生 Compaction 机制,在长 Agent 任务中自动压缩历史上下文,在保留关键信息的同时大幅降低 token 消耗,支持更长的 Agent 轨迹。

提示: 让模型自动管理上下文压缩策略。对于需要多轮迭代的 Agent 场景,推荐始终开启此选项。

GPT-5.4 在代码生成领域有显著提升,支持更大规模的代码库理解与生成。结合百万 Token 上下文,可一次性读取整个项目并生成完整解决方案:

GPT-5.4 支持四档推理强度:(默认,最低延迟)、、、。推理等级越高,模型思考越深入,但响应时间也相应增加。

推理强度说明:

推理等级 适用场景 延迟 简单问答、实时对话(默认) 最低 一般性分析任务 低 复杂推理、代码生成 中 数学证明、深度分析、复杂规划 高

控制模型的输出详尽程度,影响代码注释量、解释长度等。默认值为 。

详细级别 代码场景效果 代码简洁,注释极少 适度注释,结构清晰(默认) 完整注释,详细解释,适合教学场景

是放在输入侧(input)assistant 消息里的字段,用于多轮对话回放历史消息时,告诉模型哪些是过渡性前言()、哪些是最终答案(),从而避免模型把前言误判为最终输出,导致多步任务早停。

注意:如果使用 传递历史, 由 API 自动保留,无需手动处理。只有手动构建对话历史时,才需要把上一轮 assistant 消息的 值原样带回。

推理内容通过 事件返回,最终答案通过 返回:

手动构建对话历史时,需把上一轮 assistant 消息的 原样带回:

场景 phase 的位置 作用 单轮输出 响应的 output 字段中(只读) 标记该条 assistant 消息是前言还是最终答案 多轮对话(手动构建历史) 输入的 assistant 消息中 告诉模型历史中哪些是前言,避免早停 多轮对话(用 ) 无需处理 API 自动保留 推理过程的流式输出 不通过 phase 传递 通过 独立事件返回

GPT-5.4 延续了 GPT-5 系列的自定义工具(Custom Tools)功能,支持以任意原始文本作为工具调用输入,并可按需约束输出格式。

GPT-5.4 新增了工具搜索(Tool Search)功能,结合 CFG(Context-Free Grammar)约束输出,模型可以在大量工具定义中自动检索最相关的工具,无需手动传入完整工具列表。

提示:工具搜索特别适合工具数量庞大(数十甚至数百个)的场景。将所有工具注册后,模型会智能选择最匹配当前任务的工具,而非遍历全部工具。

© 2026 GPT-5.4 使用指南

小讯
上一篇 2026-03-14 17:38
下一篇 2026-03-14 17:36

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/235336.html