GPT-5.4 使用指南

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

GPT-5.4 是 OpenAI 迄今为止最强大的前沿模型，在 GPT-5.2 的基础上带来了多项突破性新特性：百万 Token 上下文窗口、内置 Computer Use（直接操控 UI）、原生上下文压缩以及更精细的输出控制。强烈推荐通过 Responses API 调用，以充分利用跨轮传递推理链（chain of thought）的能力。

以下示例展示最简单的 GPT-5.4 调用：

GPT-5.4 支持高达 1,000,000 个 Token 的上下文窗口，适用于：

超长文档分析（整本书、完整代码库）
长对话历史保留
大规模数据摘要与问答

调用方式与普通请求相同，只需确保输入总长度不超过 1M tokens：

GPT-5.4 内置了 Computer Use 能力，模型可以直接接收屏幕截图，并输出结构化的 UI 操作指令（点击、输入、滚动、拖拽等），由调用方在本地执行这些指令，再将新截图反馈给模型，形成视觉-操作循环，从而实现自动化操控任何图形界面。

工作原理

三种集成方式

方式适用场景说明 内置循环（推荐）快速原型、通用自动化模型直接返回 UI 操作，由你的代码执行并循环 自定义工具/Harness 已有 Playwright/Selenium/VNC 框架复用现有自动化框架，无需重构 代码执行 Harness 复杂混合任务模型编写脚本，混合视觉交互与 DOM 编程访问

支持的操作类型

操作类型说明单击指定坐标双击指定坐标在指定位置滚动（支持方向和距离）从起点拖拽到终点移动鼠标到指定位置（不点击）键盘输入文本按下指定按键（如 Enter、Tab）等待指定毫秒请求新截图

代码示例

基础单轮示例

将屏幕截图发给模型，获取第一步操作指令：

完整自动化循环（Playwright）

以下示例展示了一个完整的 Computer Use 自动化循环，使用 Playwright 执行模型返回的操作指令：

环境类型说明

参数指定运行环境，影响模型生成操作指令的方式：

值适用场景 Playwright、Selenium 等浏览器自动化 macOS 桌面应用（通过 Accessibility API） Windows 桌面应用（通过 Win32 API） Linux 桌面（通过 xdotool、xdg-open 等）

GPT-5.4 引入了原生 Compaction 机制，在长 Agent 任务中自动压缩历史上下文，在保留关键信息的同时大幅降低 token 消耗，支持更长的 Agent 轨迹。

提示：让模型自动管理上下文压缩策略。对于需要多轮迭代的 Agent 场景，推荐始终开启此选项。

GPT-5.4 在代码生成领域有显著提升，支持更大规模的代码库理解与生成。结合百万 Token 上下文，可一次性读取整个项目并生成完整解决方案：

GPT-5.4 支持四档推理强度：（默认，最低延迟）、、、。推理等级越高，模型思考越深入，但响应时间也相应增加。

推理强度说明：

推理等级适用场景延迟简单问答、实时对话（默认）最低一般性分析任务低复杂推理、代码生成中数学证明、深度分析、复杂规划高

控制模型的输出详尽程度，影响代码注释量、解释长度等。默认值为。

详细级别代码场景效果代码简洁，注释极少适度注释，结构清晰（默认）完整注释，详细解释，适合教学场景

是放在输入侧（input）assistant 消息里的字段，用于多轮对话回放历史消息时，告诉模型哪些是过渡性前言（）、哪些是最终答案（），从而避免模型把前言误判为最终输出，导致多步任务早停。

注意：如果使用传递历史，由 API 自动保留，无需手动处理。只有手动构建对话历史时，才需要把上一轮 assistant 消息的值原样带回。

推理内容通过事件返回，最终答案通过返回：

手动构建对话历史时，需把上一轮 assistant 消息的原样带回：

场景 phase 的位置作用单轮输出响应的 output 字段中（只读）标记该条 assistant 消息是前言还是最终答案多轮对话（手动构建历史）输入的 assistant 消息中告诉模型历史中哪些是前言，避免早停多轮对话（用）无需处理 API 自动保留推理过程的流式输出不通过 phase 传递通过独立事件返回

GPT-5.4 延续了 GPT-5 系列的自定义工具（Custom Tools）功能，支持以任意原始文本作为工具调用输入，并可按需约束输出格式。

GPT-5.4 新增了工具搜索（Tool Search）功能，结合 CFG（Context-Free Grammar）约束输出，模型可以在大量工具定义中自动检索最相关的工具，无需手动传入完整工具列表。

提示：工具搜索特别适合工具数量庞大（数十甚至数百个）的场景。将所有工具注册后，模型会智能选择最匹配当前任务的工具，而非遍历全部工具。

GPT-5.4 使用指南 ​