2026年GPT 5.4 深度實測：為什麼跑分第一的模型做不好一個網頁

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

Theo (t3.gg) 自費用了一週 GPT 5.4，拒絕 OpenAI 的免費 Pro 訂閱，還額外捐了 200 美元抵消 API 補貼。

他帶著自建 benchmark (效能評測) 和真實開發任務做交叉驗證，結論是：GPT 5.4 是目前綜合最強的可用模型，但它連一個網頁都做不好。

這篇文章拆解他在這支影片裡分享的數據、失敗案例和使用建議。

懶人包

⭐ Podcast 輕鬆聽：GPT 5.4 跑分最強卻做不好網頁的真實原因、Pro 版 17 分鐘解開人類花三天的密碼挑戰，以及為什麼 system prompt 是 AI 時代的人類護城河

GPT 5.4 在 SWE-Bench Pro 拿到 57.7 分，超越前代的 45.89，達到目前最高紀錄。

在 Artificial Analysis 的綜合排名上，5.4 X-High 與 Gemini 3.1 Pro Preview 並列最高分。

但 Theo 加了一個關鍵但書：Gemini 3.1 Pro Preview「實際上不太能用」，而 5.4 是真正可以拿來做事的最強模型。

更有趣的是 Theo 自建的 SkateBench V2。

他原本公開了 V1，但發現有些模型在 V1 拿滿分，換到 V2 的新題目卻全部答錯。

他懷疑 V1 的題目被污染進某些模型的訓練資料，所以 V2 改為私有。

V2 的結果：Gemini 3.1 Pro Preview 97%，GPT 5.4 High 82%，X-High 81%，Pro 79%。

對，Pro 的分數比 High 還低。

X-High 也比 High 低。

Theo 的解釋是 X-High 和 Pro 都有 overthink (過度思考) 的傾向，想太多反而錯更多。

這跟他在其他測試中的觀察一致。

所以結論很清楚：日常使用選 High 就夠了。

GPT 5.4 的發佈節奏很有意思。

先是 5.3 Codex，接著 5.3 Instant，然後直接跳到 5.4 Thinking。

沒有 5.4 Codex，也沒有 5.4 Instant。

Theo 的判斷是：Codex 作為獨立模型可能已經走向終結。

過去 Codex 存在的理由是 OpenAI 對基礎模型做額外的強化學習 (RL)，讓它更擅長長時間的程式任務。

但 5.4 已經把這些能力整合進基礎模型了。

未來的 Codex 可能只剩產品面的意義，指的是 CLI、桌面應用和網頁介面這些工具，而不是一個獨立的模型版本。

定價也透露了一些訊息。

5.4 的 API 價格是每百萬 token 輸入 2.5 美元、輸出 15 美元，比 5.2 的 1.75/14 漲了不少，更比 5.0-5.1 的 1.25/10 高出一截。

但知識截止日期沒變，仍然是 2025 年 8 月 31 日。

漲價通常意味著運算成本增加。

Theo 推測 5.4 可能不只是在舊的基礎模型上做 RL，而是有新的預訓練基底。

不過這只是推測，OpenAI 沒有公開確認。

一個好消息是推理效率明顯提升。

Medium 等級只用大約 500 個 token，High 大約 1,100 個。

相比之下 X-High 還是會燒掉 5,400 個 token，但整體趨勢是用更少的 token 達到更好的結果。

這是最能說明 GPT 5.4 弱點的故事。

Theo 想重新設計 SkateBench 的視覺化頁面。

原本的水平長條圖在加入新模型後變得擁擠，手機上更是慘不忍睹。

他先讓 GPT 5.4 來做。

多輪來回之後，結果仍然不行。

模型一直加入不必要的資訊卡片、奇怪的圓角、文字溢出容器，還有糟糕的對齊。

Theo 形容這是「GPT 設計病」，從 GPT 5 時代就存在的結構性問題。

他跟模型說「垂直空間太多，壓縮一下」，模型只刪掉一個小標籤就宣稱完成了。

說「這些資訊不必要，移除」，模型動了但沒動到點上。

於是他換了 Gemini 3.1。

Gemini 的問題不同。

它太執著於修改現有的 Recharts (圖表套件) 實作，想在原框架裡硬改，結果螢幕空間利用一塌糊塗，而且你給它截圖說「這很糟，修」，它什麼都沒改。

最後是 Opus 4.6 解決了問題。

Opus 的第一步就不一樣：它直接判斷 Recharts 不適合這個 UI，提議拋棄套件，改用 Tailwind 和 React 從零自建。

結果有漂亮的動畫、可用的矩陣圖，手機上也正常顯示。

整個過程花了比較長的時間 (約 20 分鐘才開始改動)，但方向對了，品質就跟著對了。

有個叫 ZyxCev 的開發者做了一件聰明事。

他大量生成 GPT 的 UI 設計，系統性地記錄所有 GPT 的壞習慣 (到處放 card、顏色亂配等)，然後把這些寫成一個專門的指令集給模型參考。

套用前後的差異非常顯著。

這說明了一件事：5.4 的 UI 問題不是不能繞過，但需要額外投入。

如果你的工作大量涉及前端，目前最務實的做法仍然是切換到 Opus。

Theo 說 GPT 5.4 是他用過最可操控的模型，而且這個評價來自直接對比。

舉個具體的例子。

在 T3 Chat 裡，system prompt 提到支援 LaTeX (數學排版格式)。

當你問 Gemini「今天天氣如何」，它會先花時間推理自己要不要使用 LaTeX 工具來回答天氣問題。

GPT 5.4 不會這樣。

它非常清楚什麼時候該用什麼工具，什麼時候該忽略。

你在 system prompt 裡寫的指令，它會在該用的時候精準遵守，不該用的時候乾淨地跳過。

OpenAI 為 5.4 發佈了一份詳細的 prompting guidance (提示工程指南)，Theo 認為這份文件比以前的任何同類文件都值得讀。

裡面有幾個關鍵建議：

你可以在 system prompt 裡寫輸出格式契約，比如「只回傳要求的段落，不要多」，5.4 真的會照做。

你可以指定什麼情況自動執行、什麼情況要先問，它分得清。

你甚至可以控制它是平行呼叫工具還是依序呼叫。

不過有一個需要注意的地方：5.4 在對話初期、上下文還很少的時候，工具選擇比較不穩定。

所以在 system prompt 裡提供多一點前置脈絡會有幫助。

另一個大進步是上下文壓縮。

超長對話不再是問題了。

Theo 說他可以跑出「超長的討論串，完全不影響」。

有一次他給模型一個指令，模型持續工作了 50 分鐘 (傍晚 6:05 到 6:55)。

他甚至認為那些用迴圈讓模型反覆執行的做法可能不再必要，因為模型現在聰明到可以自己持續跑下去。

加上中途插入新訊息時不會遺忘既有任務 (這是 OpenAI 特別訓練過的能力)，整體的長時間工作體驗有了質的飛躍。

先看數字。

5.4 Pro 的 API 定價是每百萬 token 輸入 30 美元、輸出 180 美元。

是標準版的 12 倍。

在 SkateBench V2 上，Pro 拿 79%，比 High 的 82% 還低。

跑 benchmark 全套的成本也遠高於 High。

大多數場景下，Pro 就是不划算。

但 Theo 分享了一個讓他改觀的案例。

Gold Bug 是 DEF CON (全球最大的駭客大會之一) 的密碼挑戰系列。

其中一題叫 C Shanty，非常難。

Theo 和他的團隊花了大約三天才解出來，其中他的技術長 Mark 和科技 YouTuber Luke 各投入了約兩天的密集工作。

他把題目丟給 5.4 Pro。

17 分鐘就解開了。

而且其實前 2 分鐘就得到了正確答案，剩下的 14 分鐘是模型在反覆確認自己的答案 (因為答案本身看起來像亂碼)。

此前沒有任何 AI 模型能解這題。

Theo 試過讓其他模型跑五個小時以上，全部放棄。

所以 Pro 的定位很明確：它是奢侈品，不是日常工具。

日常用 High，遇到真正極端的問題才考慮 Pro。

在所有的進步之中，有一個退步值得獨立提出來。

GPT 5.4 在 function call (函式呼叫) 中的 prompt injection (提示注入) 防禦出現了回歸。

具體數字：GPT 5.1 的測試中，function call 裡的 prompt injection 成功率是 0%。

5.2 退化到約 4%。

5.4 目前約 2%。

這代表什麼？

當你讓模型去瀏覽網頁、讀取資料庫、或呼叫任何會回傳外部資料的工具時，如果那些資料裡藏了惡意指令，模型有約 2% 的機率會照做。

2% 聽起來不多，但在大規模的 AI 代理使用場景下，這個數字會被放大。

Theo 認為這個回歸的原因可能是 OpenAI 大幅強化了 tool use (工具使用) 的訓練，讓模型更積極地使用工具和處理工具回傳的資料，但副作用是對工具回傳內容的防禦機制被削弱了。

如果你正在建構會處理外部或使用者生成內容的 AI 系統，這是一個需要額外留意的風險。

GPT 5.4 確實是目前拿來做事最全面的模型。

跑分數據支撐這個結論，Theo 的實測也支撐。

但「最全面」不等於「唯一需要的」。

Theo 每天仍然用三家模型：GPT 5.4 處理大部分工作，Opus 4.6 處理 UI 和前端，Gemini 在特定 benchmark 和場景下仍然領先。

我覺得這反映的不是 5.4 不夠好，而是「一個模型打天下」根本就是錯誤期待。

真正值得關注的趨勢是可操控性。

5.4 是目前最聽話的模型，這意味著你花在系統提示詞、設定檔、AI 代理指令上的時間，回報率比以前任何時候都高。

模型越強，指揮模型的能力越重要。

這才是 5.4 帶來的真正訊號。

參考資料：GPT 5.4 深度評測 — Theo

2026年GPT 5.4 深度實測：為什麼跑分第一的模型做不好一個網頁

相关推荐